~ 齐 
汪 o 21 世 纪 高 等 学 校 计 算 机 
SSZ 基础 实用 规划 教材 


二 级 Python 编程 指南 


@ 娄 岩 主编 张 志 常 曹 鹏 副 主编 


渡 革 大 党 出 版 社 


北京 


内 容 简 介 


本 书 以 实用 为 导向 ， 从 基础 概念 、 语 法 结构 、 应 用 实例 、 开 发 技巧 等 方面 深入 浅 出 地 介绍 了 Python 的 
程序 设计 方法 以 及 项 目 实现 流程 。 全 书 共 13 章 ， 分 别 是 Python 概述 、 基 础 语法 、 控 制 结构 、 函 数 、 模 块 与 
文件 、 面 向 对 象 程序 设计 、 图 形 界面 设计 、 数 据 库 应 用 、 网 络 及 多 线程 、 网 络 息 虫 、 图 像 操作 与 处 理 、 科 学 
计算 与 数据 可 视 化 应 用 、 数 据 挖掘 与 机 器 学 习 和 Python 解析 XML。 

本 书 以 实例 方式 讲解 ， 每 个 实例 都 通过 验证 、 图 文 并 茂 、 操 作 步 骤 完 善 并 附 有 有 具体 脚本 代码 ， 易 于 党 
担 和 学 习 。 本 书 提供 开放 式 的 课程 网 站 (http:/www.cmu.edu.cn/computer) 和 相应 的 课件 作为 支持 。 

本 书 既 可 以 作为 全 国 普通 高 校 各 专业 计算 机 公共 基础 课程 教材 ， 又 可 作为 全 国 计 算 机 等 级 考试 的 辅导 
教材 ， 还 可 作为 专业 技术 人 员 的 参考 用 书 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
版 权 所 有 ， 侵 权 必 究 。 侵 权 举报 电话 : 010-62782989 13701121933 


图 书 在 版 编目 (CIP) 数据 

二 级 Python 编程 指南 / 娄 岩 主编 . 一 北京 : 清华 大 学 出 版 社 ，2019 

(21 世纪 高 等 学 校 计算 机 基础 实用 规划 教材 ) 

ISBN 978-7-302-52628-5 

I. @ 二 … II. @ 类 … 了 UH. @ 软 件 工 具 一 程序 设计 NV. OTP311.561 


中 国 版 本 图 书馆 CIP 数据 核 字 (2019) 第 043402 号 


责任 编辑 : 机 试 
封面 设计 : 刘 键 
责任 校对 : 梁 名 
责任 印 制 : 丛 怀 宇 


出 版 发 行 : 清华 大 学 出 版 社 
网 址 : http://www.tup.com.cn, http://www.wqbook.com 


地 址 : 北京 清华 大 学 学 研 大 厦 A 座 邮 ” 编 : 100084 
社 总 机 : 010-62770175 邮 ” 购 : 010-62786544 


投稿 与 读者 服务 : 010-62776969，c-service@tup.tsinghua.edu.cn 

质量 反馈 : 010-62772015，zhiliang@tup.tsinghua.edu.cn 

课件 下 载 : http://www.tup.com.cn，010-62795954 

北京 嘉实 印刷 有 限 公司 

全 国 新 华 书店 

: 185mmX260mm 印 张 : 13.5 字 ” 数 : 328 千 字 

: 2019 年 4 月 第 1 版 印 ”次 : 2019 年 4 月 第 1 次 印刷 
1~2500 

45.00 元 


: 081379-01 


浊 


二 | 半 吕 亚洲 矢 轨 


到 
流 
中 | 滞洪 污 计 蓉 普 


近年 来 , Python 已 经 快速 发 展 成 为 最 热门 的 语言 之 一 , Python 在 系统 运 维 、Web 开发 、 
网 络 仆 虫 、 科 学 计算 、 图 像 处 理 、 人 工 智 能 等 领域 都 已 得 到 了 广泛 的 应 用 ， 这 大 大 促进 了 
Python 语言 的 发 展 。 为 适应 新 时 代 信 息 技 术 的 发 展 , 教育 部 考试 中 心 决定 自 2018 年 3 月 
起 ， 在 计算 机 二 级 考试 中 加 入 “Python 语言 程序 设计 ”科目 。 目 前 ， 已 经 有 越 来 越 多 的 人 
开始 投入 到 Python 的 应 用 研究 中 。 

为 此 ， 我 们 精心 策划 和 编写 了 《二 级 Python 编程 指南 》 这 本 面向 实践 、 注 重 应 用 的 教 
材 ， 目 的 是 使 读者 既 能 够 结合 实例 学 习 Python 程序 设计 方法 ， 提 高 运用 Python 编程 并 解 
决 实际 应 用 问题 的 能 力 ， 又 可 以 通过 学 习 ， 为 参加 全 国 计 算 机 等 级 考试 做 好 准备 。 

本 书 以 实例 方式 进行 讲解 ， 其 中 每 个 实例 都 通过 验证 、 操 作 步 又 完善 并 附 有 具体 脚本 
代码 。 本 书 图 文 并 成 ， 知 识 难 易 程度 循序 渐进 ， 具 有 很 强 的 可 读 性 和 可 操作 性 。 读 者 在 学 
习 过 程 中 可 以 按 图 索 台 ,在 较 短 时 间 内 掌握 Python 的 开发 技术 。 本 书 兼 顾 了 不 同 专业 、 不 
同 层次 读者 的 需要 ， 以 提高 读者 自主 学 习 和 运用 知识 的 能 力 为 目标 ， 强 化 了 学 习 过 程 中 实 
践 能 力 的 培养 ， 为 Python 初学 者 提供 全 面 、 翔 实 的 参考 资料 ， 使 其 易于 掌握 Python 程序 
设计 方法 、 项 目 开 发 流程 和 步骤 。 

全 书 共有 13 章 ， 分 别 是 Python 概述 ， 基础 语法 ;控制 结构 ;函数 、 模 块 与 文件 ， 面 
向 对 象 程序 设计 ， 图 形 界面 设计 ， 数 据 库 应 用 ;网络 及 多 线程 ， 网 络 仆 虫 ， 图 像 操 作 与 处 
理 ， 科 学 计算 与 数据 可 视 化 应 用 ; 数据 挖掘 与 机 器 学 习 ，Python 解析 XML。 第 1 章 由 类 
岩 编写 ， 第 2 章 由 郭 美 娜 编写 ， 第 3 章 由 霍 妍 编写 ， 第 4 章 由 马 瑾 编写 ， 第 5 章 由 曹阳 编 
写 , 第 6 章 由 郭 婷 婷 编写 , 第 7 章 由 徐 东 十 编写, 第 8 章 由 刘 佳 编写 , 第 9 章 由 曹 鹏 编写 ， 
第 10 章 由 郑 琳 琳 编写 ， 第 11 章 由 庞 东 兴 编 写 ， 第 12 章 由 张 志 常 编写 ， 第 13 章 由 王 艳 华 
编写 。 
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第 1 章 Python 概述 


导 学 

Python 是 一 种 跨 平台 的 、 开 源 的 解释 型 高 级 语言 。 其 作为 动态 编程 语言 更 适合 初学 者 。 
通过 引用 外 部 库 ，Python 可 快速 、 准 确 地 实现 多 种 实用 功能 ， 尤 其 在 人 工 智 能 和 大 数据 方 
面 的 应 用 ， 更 优 于 目前 市 面 上 流行 的 其 他 高 级 程序 语言 。Python 模块 化 的 设计 理念 ， 使 其 
具有 更 好 的 开放 性 和 扩展 性 。 通 过 学 习 Python， 不 但 能 够 帮助 初学 者 掌握 程序 设计 方法 ， 
增强 逻辑 思维 能 力 ， 还 可 使 学 生 快 速 、 方 便 地 开发 出 具有 实用 功能 的 应 用 案例 。 

了 解 : Python 的 发 展 历史 和 主要 应 用 领域 。 

掌握 : Python 的 相关 概念 以 及 特点 ，Python 以 及 其 集成 开发 环境 的 搭建 、 工 作 方式 及 
安装 方法 ，Python 主要 的 输入 和 输出 方法 。 

Python 作为 一 种 高 扩展 性 的 语言 ， 有 功能 丰富 的 标准 库 ， 应 用 领域 十 分 广泛 ， 几 乎 可 
以 在 任何 场合 应 用 Python， 从 网 站 、 怜 虫 到 机 器 人 控制 , 它 是 目前 最 主流 的 程序 设计 语言 。 


1.1 Python 简介 


1.1.1 Python 的 概念 


Python 是 一 种 高 层次 的 ， 结 合 了 解释 性 、 编 译 性 、 互 动 性 和 面向 对 象 的 程序 设计 语言 。 
Python 的 设计 具有 很 强 的 可 读 性 ， 具 有 比 其 他 语言 更 有 特色 的 语法 结构 。 

(1) Python 是 一 种 解释 型 语言 : 开发 过 程 中 没有 编译 这 个 环节 ， 类 似 于 PHP 或 者 Perl 
语言 。 

(2) Python 是 交互 式 语言 : 可 以 在 命令 提示 符 中 ， 直 接 互 动 执行 程序 。 

(3) Python 是 面向 对 象 语言 : Python 支持 面向 对 象 的 风格 或 代码 封装 在 对 象 中 的 编 
程 技术 。 

(4) Python 是 被 广泛 应 用 的 语言 : Python 支持 广泛 的 应 用 程序 开发 ， 从 简单 的 文字 处 
理 到 浏览 器 再 到 网 络 仆 虫 、 机 器 学 习 等 。 


1.1.2 Python 的 发 展 历 史 


Python 是 Guido van Rossum 在 1989 年 圣诞 节 开发 的 一 门 语言 ， 这 个 名 字 来 自 于 他 最 
钟爱 的 电视 剧 Monty Python’s Flying Circus。Python 本 身 也 是 由 诸多 其 他 语言 发 展 而 来 的 ， 
包括 C、C++、Unix shell 和 其 他 的 脚本 语言 等 。 

自从 2004 年 以 后 ，Python 的 使 用 率 呈 线性 增长 。2011 年 1 月 ，Python 被 TIOBE 编程 
语言 排行 榜 评 为 2010 年 度 语言 。 
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导 学 

Python 是 一 种 跨 平台 的 、 开 源 的 解释 型 高 级 语言 。 其 作为 动态 编程 语言 更 适合 初学 者 。 
通过 引用 外 部 库 ，Python 可 快速 、 准 确 地 实现 多 种 实用 功能 ， 尤 其 在 人 工 智 能 和 大 数据 方 
面 的 应 用 ， 更 优 于 目前 市 面 上 流行 的 其 他 高 级 程序 语言 。Python 模块 化 的 设计 理念 ， 使 其 
具有 更 好 的 开放 性 和 扩展 性 。 通 过 学 习 Python， 不 但 能 够 帮助 初学 者 掌握 程序 设计 方法 ， 
增强 逻辑 思维 能 力 ， 还 可 使 学 生 快 速 、 方 便 地 开发 出 具有 实用 功能 的 应 用 案例 。 

了 解 : Python 的 发 展 历史 和 主要 应 用 领域 。 

掌握 : Python 的 相关 概念 以 及 特点 ，Python 以 及 其 集成 开发 环境 的 搭建 、 工 作 方式 及 
安装 方法 ，Python 主要 的 输入 和 输出 方法 。 

Python 作为 一 种 高 扩展 性 的 语言 ， 有 功能 丰富 的 标准 库 ， 应 用 领域 十 分 广泛 ， 几 乎 可 
以 在 任何 场合 应 用 Python， 从 网 站 、 怜 虫 到 机 器 人 控制 , 它 是 目前 最 主流 的 程序 设计 语言 。 


1.1 Python 简介 


1.1.1 Python 的 概念 


Python 是 一 种 高 层次 的 ， 结 合 了 解释 性 、 编 译 性 、 互 动 性 和 面向 对 象 的 程序 设计 语言 。 
Python 的 设计 具有 很 强 的 可 读 性 ， 具 有 比 其 他 语言 更 有 特色 的 语法 结构 。 

(1) Python 是 一 种 解释 型 语言 : 开发 过 程 中 没有 编译 这 个 环节 ， 类 似 于 PHP 或 者 Perl 
语言 。 

(2) Python 是 交互 式 语言 : 可 以 在 命令 提示 符 中 ， 直 接 互 动 执行 程序 。 

(3) Python 是 面向 对 象 语言 : Python 支持 面向 对 象 的 风格 或 代码 封装 在 对 象 中 的 编 
程 技术 。 

(4) Python 是 被 广泛 应 用 的 语言 : Python 支持 广泛 的 应 用 程序 开发 ， 从 简单 的 文字 处 
理 到 浏览 器 再 到 网 络 仆 虫 、 机 器 学 习 等 。 


1.1.2 Python 的 发 展 历 史 


Python 是 Guido van Rossum 在 1989 年 圣诞 节 开发 的 一 门 语言 ， 这 个 名 字 来 自 于 他 最 
钟爱 的 电视 剧 Monty Python’s Flying Circus。Python 本 身 也 是 由 诸多 其 他 语言 发 展 而 来 的 ， 
包括 C、C++、Unix shell 和 其 他 的 脚本 语言 等 。 

自从 2004 年 以 后 ，Python 的 使 用 率 呈 线性 增长 。2011 年 1 月 ，Python 被 TIOBE 编程 
语言 排行 榜 评 为 2010 年 度 语言 。 
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1.1.3 Python 3 


Python 的 3.0 版 本 常 被 称 为 Python 3000， 或 简称 Py3k。 相 对 于 Python 的 早期 版 本 ， 
这 是 一 次 较 大 的 升级 。 Python 3.0 在 设计 的 时 候 没有 考虑 向 下 相 容 , 即 许多 针对 早期 Python 
版 本 设计 的 程序 都 无 法 在 Python 3.0 上 正常 执行 。 为 了 兼容 现 有 程式 , Python 2.6 作为 一 个 
过 渡 版 本 ， 基 本 使 用 了 Python 2.x 的 语法 和 库 ， 同 时 考虑 了 向 Python 3.0 的 迁移 ， 允 许 使 
用 部 分 Python 3.0 的 语法 与 函数 。 新 的 Python 程序 建议 使 用 Python 3.0 版 本 的 语法 。 大 多 
数 第 三 方 库 都 正在 努力 地 相 容 Python 3.0 版 本 ,即使 无 法 立即 使 用 Python 3.0, 也 建议 编写 
相 容 Python 3.0 版 本 的 程式 ， 本 书 中 所 有 Python 代码 均 采用 Python 3 编写 。 


1.1.4 Python 的 将 点 


1. Python 的 优点 

Python 作为 目前 应 用 广泛 的 程序 设计 语言 ， 具 有 如 下 优点 。 

(1) 易于 学 习 : Python 有 相对 较 少 的 关键 字 ， 结 构 简 单 ， 语 法 定义 明确 ， 学 习 起 来 更 
加 简单 。 

(2) 易于 阅读 ，Python 代码 定义 得 更 清晰 。 

(3) 易于 维护 ， Python 的 成 功 在 于 它 的 源 代码 是 相当 容易 维护 的 。 

(4) 广泛 的 标准 库 : Python 的 最 大 优势 之 一 是 丰富 的 、 跨 平台 的 库 , 在 UNIX、Windows 
和 Macintosh 上 的 兼容 性 很 好 。 

(5) 互动 模式 : 支持 互动 模式 ， 可 以 终端 输入 执行 代码 并 获得 结果 ， 互 动 地 测试 和 调 
试 代码 片段 。 

(6) 可 移植 性 ， 基于 其 开发 源 代码 的 特性 ，Python 已 经 被 移植 到 许多 平台 。 

(7) 可 扩展 性 : Python 程序 中 可 调用 C 或 者 C++ 程序 。 

(8) 数据 库 : Python 提供 所 有 主要 的 商业 数据 库 的 接口 ， 如 MySQL、MongoDB 等 。 

(9) 可 嵌入 性 : 可 以 将 Python 与 入 到 C 或 者 C++ 程序 ， 让 程序 获得 “脚本 化 ”的 
能 力 。 

2. Python 的 缺点 

虽然 Python 具有 诸多 优点 ， 但 同样 存在 以 下 缺点 。 

(1) 运行 速度 慢 : 和 C 程序 相 比 非常 慢 ， 因 为 Python 是 解释 型 语言 ， 代 码 在 执行 时 
会 逐 行 翻译 成 CPU 能 理解 的 机 器 码 ， 这 个 翻译 过 程 非常 耗 时 ， 所 以 很 慢 ， 而 C 程序 是 运 
行 前 直接 编译 成 CPU 能 执行 的 机 器 码 ， 所 以 非常 快 。 

(2) 代码 不 能 加 密 : 如 果 要 发 布 Python 程序 ， 实 际 上 就 是 发 布 源 代码 ， 这 一 点 跟 C 
语言 不 同 。C 语言 不 用 发 布 源 代 码 ， 只 需要 把 编译 后 的 机 器 码 发 布 出 去 ， 要 从 机 器 码 反 推 
出 C 代码 是 不 可 能 的 ， 所 以 ， 凡 是 编译 型 的 语言 都 没有 这 个 问题 ， 而 解释 型 的 语言 则 必须 
把 源码 发 布 出 去 。 

1.1.5 Python 的 应 用 领域 


Python 作为 一 种 功能 强大 且 通 用 的 编程 语言 而 广 受 好 评 , 它 具有 非常 清晰 的 语法 特点 ， 
适用 于 多 种 操作 系统 ， 目 前 在 国际 上 非常 流行 ， 正 在 得 到 越 来 越 多 的 应 用 。Python 具有 优 


秀 的 扩展 性 ， 在 诸多 领域 ， 如 网 络 仆 虫 、 人 工 智能 、 科 学 计算 、Web 开发 、 系 统 运 维 、 大 
数据 、 云 计算 、 金 融 、 图 形 界面 、 企 业 和 网 站 等 方面 都 具有 良好 的 应 用 。 


1.2 Python 的 安装 
Python 具有 良好 的 兼容 性 ， 可 安装 在 UNIX、Windows 和 Macintosh 等 主流 平台 上 ， 


本 节 以 Windows 平台 为 例 ， 详 细 介 绍 Python 的 安装 过 程 。 
首先 进入 Python 官网 下 载 页 面 https://www.python.org/downloads/， 如 图 1-1 所 示 。 


诈 python 


About Downloads Documentation Community SucressStores News 


Download the latest version for Windows [NN | 


图 1-1 Python 官网 下 载 页 面 
单 击 Download Python 3.6.5 按钮 ， 进 入 下 载 页 面 ， 网 站 会 根据 操作 系统 下 载 合适 的 版 
本 ， 如 图 1-2 所 示 。 
双击 安装 包 进 行 安装 ， 在 开始 安装 界面 勾 选 Add Python 3.6 to PATH， 将 Python 添加 
到 环境 变量 ， 如 图 1-3 所 示 。 


Install Python 3.6.5 (32-bit) 
Select Instal Now to install python with default settings, or chcose 
Customize t0 enable or disable features. 


3 Install Now 


部 建 下 就 任务 x CALsers Administrato\AppData\local\programs\Pythan\Python36-32 
| Indudes IDLE, pip and 
nm re 
HS: EEE ee 3 2 Customize installation 
全 oa ehon ns dae 
a | oT | 
python 
for 司 jnstal launcher for all users (recommended) 
[RE EE 了 windows 司 Ad Pythen 36 to PATH 
图 1-2 下载 Python 安装 包 图 1-3 勾 选 Add Python 3.6 to PATH 第 


Python 克基 


二 级 Python 须 杖 兹 现 


可 选择 Install Now 进行 默认 安装 ， 也 可 选择 Customize installation 进行 个 性 化 安装 ， 
本 节 以 个 性 化 安装 为 例 进行 安装 ， 单 击 Customize installation 按钮 ， 进 入 个 性 化 安装 页 面 ， 
可 勾 选 需要 安装 的 模块 ， 如 图 1-4 所 示 。 


Optional Features 
回 Doaumentztion 


Instals the Python documentation fle. 


团 pp 
Instals pP which on download and nstall other Python paccages 


tjtk and IDLE 


nstals tiinter and the IDLE development envronment. 
加 Python test suite 
Instals the standard fbrany test suite. 


Py leuncher 国 foral users (requires elevatior) 
Upgrades the giobal py’ launcher from the previous version. 


图 1-4 个 性 化 安装 界面 1 


单 击 Next 按钮 继续 安装 ， 进 入 Advanced Options 界面 ， 可 进行 安装 目录 选择 等 设置 ， 
如 图 1-5 所 示 。 


Advanced Options 

加 Install for all users 

Associate fies with Python (requires the py launcher) 
Create shortcuts for installed applications 

图 Add python io environment variables 

加 Precompile standard fibrary 


回 Downioad debugging symbols 
回 Downioad debug bnares (reauires VS 2015 or aten 


Customize instal lccation 
CWsersAdministrato AppData\L.ocal\Programs\Python\Pyt E 
You will require write permissicns for the salected location, 


bak [msial || Cance 


图 1-5 个 性 化 安装 界面 2 
单 击 Install 按钮 进行 安装 ， 如 图 1-6 所 示 。 
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图 1-6 Python 安装 界面 


安装 完成 后 会 弹出 安装 成 功 界面 ， 如 图 1-7 所 示 。 


Python 36s G2BN fe 
Setup was successful 


Special thanks to Mark Hammond, without whose years of 
reely shared Windows expertise, Python for Windows woud 


stlll be Python for DOS. 
| New to Python? Start with the online tutoral and 
docume 


ew in this release. 


python 


windows EE 
图 1-7 Python 安装 成 功 界面 


可 在 cmd 窗口 测试 Python 是 否 安装 成 功 。 在 cmd 窗口 输入 python 命令 ， 如 果 显 示 版 
本 等 信息 则 说 明 Python 安装 成 功 ， 如 图 1-8 所 示 。 


图 1-8 在 cmd 窗口 测试 Python 


1.3 第 一 个 Python 程序 


对 于 大 多 数 编程 语言 ， 第 一 个 入 门 编程 代码 便 是 "Hello World! "， 以 下 代码 为 使 用 
Python 输出 "Hello World! ": 


print ("Hello, World!") 
以 上 命令 输出 结果 如 下 : 


Hello, World! 


这 样 便 编 写 了 一 个 Python 程序 ， 成功 输出 了 "Hello World! "文本 ,在 接 下 来 的 章节 中 
会 详细 讲解 Python 的 使 用 语法 ， 本 节 作 为 示例 ， 不 对 代码 进行 详细 说 明 。 
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1.4 搭建 Python 集成 开发 环境 


在 成 功 安装 Python 后 ， 可 在 cmd 窗口 运行 Python 程序 。 但 在 cmd 窗口 运行 程序 存在 
效率 较 低 、 易 出 错 等 缺点 。 一 般 在 开发 Python 程序 时 , 会 选择 集成 开发 环境 (IDE, Integrated 
Development Environment)。PyCharm 是 一 种 使 用 广泛 的 Python 集成 开发 环境 ， 可 帮助 上 
户 在 使 用 Python 语言 开发 时 提高 其 效率 ， 如 调试 、 语 法 高 亮 、Project 管理 、 代 码 跳 转 、 智 
能 提示 、 自 动 完成 、 单 元 测试 、 版 本 控制 。 此 外 ， 该 集成 开发 环境 提供 了 一 些 高 级 功能 ， 
以 用 于 支持 Django 框架 下 的 专业 Web 开发 。 本 节 以 PyCharm 为 例 , 讲解 Python 集成 开发 
环境 的 搭建 。 

首先 进入 PyCharm 官网 http://www.jetbrains.com/pycharm/， 如 图 1-9 所 示 。 


PyCharm Coming mn 


国 PyCharm 
py Python IDE 
ForProfessional Developers 


图 1-9 PyCharm 官网 
单 击 DOWNLOAD NOW 按钮 ， 进 入 下 载 版 本 选择 页 面 ， 可 选择 相应 操作 系统 以 及 不 
同 版 本 进行 下 载 ， 如 图 1-10 所 示 。 


ec PyCharm Coming in Whatrs New Features Docs & Demos Buy 


中 文 最 务 
国 > 


Professional Community 
Full-featured IDE Lightweight IDE 
for Python & Web ientific 
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development 


图 1-10 下载 版 本 选择 页 面 


Professional 版 本 具有 Python 开发 的 全 部 功能 , 单 击 Professional 下 的 DOWNLOAD 按 
钮 ， 弹 出 安装 包 下 载 页 面 ， 如 图 1-11 所 示 。 
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坎 件 24251 MB 
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图 1-11 下 载 PyCharm 安装 包 
双击 PyCharm 安装 包 进 行 安装 ， 如 图 1-12 所 示 。 


Welcome to PyCharm Setup 


Setup wll guide you through the nstalaton of PyCharm. 
Itis recommended that you dose al other 
before starting 


apphcadons 
Setup. This wl make it possibie to update 
relevant system fles without having to reboot your 
‘Computer. 


Chdk Next to continue, 


图 1-12 PyCharm 安装 界面 
单 击 Next 按钮 进行 安装 ， 选 择 安装 目录 ， 如 图 1-13 所 示 。 


(Choose the folder n which to nstal PyCharm. 


folowing folder. To nstal n a different folder, cick Browse 
Next to continue. 


图 1-13 PyCharm 目录 选择 界面 
单 击 Next 按钮 继续 安装 ， 可 进行 快捷 方式 和 文件 关联 等 配置 ， 如 图 1-14 所 示 。 1 
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回 pownioad and nstal JRE x86 by JetBrans 


图 1-14 PyCharm 配置 界面 
勾 选 相应 快捷 方式 后 ， 单 击 Next 按钮 继续 安装 ， 进 入 安装 确认 页 面 ， 如 图 1-15 所 示 。 


Choose Start Menu Folder 
Choose a Start Menu folder for the PyCharm shorteuts. 


Select the Start Menu foider in which you would ke to create the programis shortauts You 
Can ao enter a name to create a new folder. 


Microsoft Visual Studio 2015 Tools for Unity 


图 1-15 PyCharm 安装 确认 界面 
击 Install 按钮 进行 安装 ， 如 图 1-16 所 示 。 


图 1-16 PyCharm 安装 界面 


图 1-17 PyCharm 安装 成 功 界面 
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图 1-18 ”PyCharm 启动 界面 


进入 项 目 管理 界面 ， 在 Location 文本 框 中 输入 项 目地 址 ， 如 图 1-19 所 示 。 
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图 1-19 PyCharm 项 目 管理 界面 


等 待 安装 完成 后 ， 弹 出 安装 成 功 界面 ， 表 示 PyCharm 已 经 安装 成 功 ， 如 图 1-17 所 示 。 
启动 PyCharm， 启 动 界面 如 图 1-18 所 示 。 
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单 击 Create 按钮 创建 Python 项 目 ， 进 入 PyCharm 项 目 开 发 界面 ， 如 图 1-20 所 示 。 
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图 1-20 PyCharm 项 目 开 发 界面 
在 项 目 文件 夹 上 右 击 ， 选 择 New 一 Python File， 创 建 Python 文件 ， 如 图 1-21 所 示 。 


CopyRelative Path Cl+Ak+Shift+C 
俐 paste cuelV | 记 Jupyter Notebook 
Find Usages An+P | 坊 HTML Fle 
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®@ Gherkin feature file 
让 Ed File Templates.. 


Show Image Thumbnails Ctrl+shift+T | 车 Data Source 
启 HTTP Request 


图 1-21 创建 Python 文件 


图 1-22 输入 Python 文件 名 称 


创建 Python 文件 后 ， 可 在 代码 编辑 窗口 中 输入 代码 ， 如 图 1-23 所 示 。 
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图 1-23 编辑 代码 


16 n/a UTF-8; Pb 县 


若 要 运行 该 Python 文件 ， 可 在 对 应 Python 文件 标签 上 单 击 右键 ,选择 Run xxx， 如 图 


1-24 所 示 。 
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1-24 运行 Python 文件 
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图 1-25 ”运行 结果 界面 


通过 以 上 讲解 ， 用 户 可 在 PyCharm 中 编写 和 运行 Python 程序 ， 提 高 开发 效率 。 
1.5 Python 的 输入 /输出 


1.5.1 Python 的 输入 


1. 读 取 键盘 输入 
Python 提供 了 inputO 内 置 函 数 ， 从 标准 输入 设备 读 入 一 行文 本 ， 默 认 的 标准 输入 设备 
是 键盘 。inputO 可 以 接收 一 个 Python 表达 式 作 为 输入 ， 并 将 运算 结果 返回 ， 示例 代码 如 下 : 


str = input ("请 输入 : "); # 等 待 用 户 输入 
print ("你 输入 的 内 容 是 : "，str) # 显 示 用 户 输入 内 容 


上 述 代码 运行 后 会 等 待 用 户 输入 ， 输 入 字符 串 后 按 Enter 键 结束 输入 ， 输 出 窗口 会 显 
示 刚 刚 输入 的 字符 串 ， 输 出 结果 如 下 : 


请 输入 : 中 国医 科大 学 计算 机 教研 室 
你 输入 的 内 容 是 : ”中 国医 科大 学 计算 机 教研 室 


2. 读 文 本 文件 

除了 通过 键盘 读 取 输 入 外 ，Python 还 可 以 读 取 文本 文件 作为 输入 。 对 文本 文件 的 操作 
包括 文件 的 创建 (打开 )、 关闭 、 读 和 写 等 , 这 些 是 许多 程序 运行 过 程 中 经 常 应 用 的 。 Python 
中 文件 的 操作 过 程 通常 是 先 通过 创建 一 个 fle 类 的 对 象 打开 一 个 文件 ;再 使 用 fle 类 的 read0 
读 文件 ; 最 后 ， 完 成 对 文件 的 操作 时 要 调用 close( 方 法 关闭 文件 。read() 方 法 可 以 从 一 个 打 
开 的 文件 中 读 取 一 个 字符 串 ， 该 方法 从 文件 的 开头 开始 读 入 ， 如 果 没 有 传 入 参数 ，read0) 


方法 会 尝试 尽 可 能 多 地 读 取 更 多 的 内 容 ， 很 可 能 是 直到 文件 的 末尾 。 需 要 重点 注意 的 是 ， 
Python 字符 串 可 以 是 二 进 制 数据 ， 而 不 仅仅 是 文字 。 读 文件 示例 代码 如 下 : 


# 打 开 Python 项 目 目录 中 的 cmucc .txzt 文本 文件 ， 读 文本 内 容 ， 使 用 结束 ， 关 闭 文件 


EL = OpenwcnuccExE en # 打 开 一 个 文件 ,参数 为 只 读 
print ("文件 名 : "，f1.name) # 输 出 文件 名 

print ("文本 内 容 : "，f1.read()) # 读 文件 内 容 
fl.close() # 关 闭 打 开 的 文件 

上 述 代 码 输出 结果 如 下 : 

文件 名 : cmucc.txt 

文本 内 容 : ”cMUCC 


读 文 本 文件 除了 上 述 方法 ， 还 有 其 他 使 用 方法 ， 关 于 读 文件 的 更 多 操作 会 在 后 续 章 节 
中 详细 讲解 ， 本 节 不 再 展开 说 明 。 

3. 读 取 其 他 文件 

Python 除了 读 取 文 本 文件 外 ， 还 可 以 读 取 XML、JSON 等 文件 ， 将 这 些 文件 中 的 信息 
作为 输入 ， 本 书 中 关于 读 取 XML 文件 的 具体 操作 会 在 后 续 章 节 中 详细 讲解 ， 本 节 不 再 展 
开 说 明 。 
1.5.2 ”Python 的 输出 


1. print0 函 数 
printO 函 数 作 为 Python 最 常用 的 输出 语句 ， 可 以 输出 字符 串 、 数 值 和 变量 等 ， 示 例 代 
人 码 如 下 : 


print (" 中 国医 科大 学 计算 机 教研 室 ") 
上 述 代码 会 在 输出 窗口 显示 相应 信息 ， 运 行 结果 如 下 : 
中 国医 科大 学 计算 机 教研 室 


printO 函 数 默认 是 换行 的 ， 即 每 次 使 用 print0 会 自动 换 一 行 ， 如果 想 不 换行 输出 ， 则 在 
printO 函 数 中 加 入 “end="” 语 句 ， 示 例 代 码 如 下 : 

Print ('" 中 国医 科大 学 ",end=' 7) 

print (' 计 算 机 教研 室 ' ) 

上 述 代码 在 输出 ' 中 国医 科大 学 ' 后 ， 应 该 男 起 一 行 输出 "计算 机 教研 室 '"， 由 于 加 入 
“end="” 语 句 ， 所 以 没有 换行 ， 直 接 输 出 了 ' 计 算 机 教研 室 '， 运 行 结果 如 下 : 

中 国医 科大 学 计算 机 教研 室 

关于 print0 函 数 的 更 多 操作 会 在 后 续 章 节 中 详细 讲解 ， 本 节 不 再 展开 说 明 。 

2. 写 文本 文件 

write0 方 法 可 将 字符 串 写 入 一 个 打开 的 文本 文件 ， 即 将 结果 输出 到 文件 中 ， 与 read0 
方法 类 似 ，Python 中 文件 的 操作 过 程 通常 是 先 通过 创建 一 个 file 类 的 对 象 打开 一 个 文件 ; , 
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再 使 用 file 类 的 write0 写 文件 ; 最后， 完成 对 文件 的 操作 时 要 调用 close 方法 关闭 文件 。 关 
于 写 文件 的 更 多 操作 会 在 后 续 章 节 中 详细 讲解 ， 本 节 不 再 展开 说 明 。 

3. 写 入 其 他 文件 

Python 除了 可 以 将 输出 结果 写 入 文本 文件 外 ， 还 可 以 将 输出 结果 输出 到 XML、JSON 
等 文件 ， 本 书 中 关于 写 入 XML 文件 的 具体 操作 会 在 后 续 章节 中 详细 讲解 ， 本 节 不 再 展开 
说 明 。 

本 节 介绍 了 Python 中 的 主要 输入 和 输出 方法 ， 使 读者 对 Python 的 输入 和 输出 有 整体 
的 理解 ， 为 后 续 章节 的 学 习 提 供 帮 助 。 


本 章 小 结 


本 章 主要 介绍 了 Python 的 概念 、 发 展 历史 、 特 点 和 主要 应 用 领域 ; 详细 介绍 了 Python 
的 安装 过 程 ， 并 以 Python 3 为 例 编 写 了 第 一 个 Python 程序 ， 以 及 Python 集成 开发 环境 
PyCharm 的 安装 和 工作 方式 ; 介绍 了 Python 3 的 主要 输入 和 输出 方法 。 通 过 对 本 章 的 学 习 ， 
读者 能 够 对 Python 有 一 定 的 了 解 和 掌握 ， 为 后 续 章 节 的 学 习 打 下 良好 的 理论 基础 。 
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导 学 

Python 语言 是 当今 计算 机 领域 应 用 非常 广泛 的 高 级 语言 之 一 。 在 诸多 计算 机 高 级 语言 
中 ，Python 是 一 门 简单 易学 且 功 能 强大 的 编程 语言 。 通 过 学 习 Python， 不 但 能 够 帮助 学 生 
学 会 程序 设计 方法 、 增 强 逻 辑 思 维 能力 ， 同 时 还 可 以 让 学 生 掌握 计算 机 高 级 语言 完整 的 知 
识 体 系 结构 。 

了 解 : Python 变量 的 赋值 、 运 算 符 的 优先 级 。 

掌握 : Python 的 基本 数据 类 型 和 基本 运算 符 的 使 用 。 

Python 语言 与 C、C++、Java 和 C# 等 计算 机 语言 有 许多 相似 之 处 ， 同 时 又 存在 一 些 差 
异 ， 它 能 够 用 简单 而 又 高 效 的 方式 进行 面向 对 象 编程 。 比 如 ， 完 成 同一 个 任务 ，C 语言 需 
要 900 行 代码 ，C# 需 要 200 行 ， 而 Python 可 能 只 要 10 行 。Python 拥有 高 效 的 数据 结构 ， 
是 开发 应 用 程序 的 理想 语言 。 本 章 学 习 Python 语言 的 基础 语法 ,其 中 包括 基本 数据 类 型 和 
运算 符 。 


2.1 Python 的 基本 数据 类 型 


2.1.1 变量 的 赋值 和 数据 类 型 


Python 中 的 变量 不 需要 声明 ， 但 每 个 变量 在 使 用 前 都 必须 赋值 ， 变 量 赋值 以 后 该 变量 
才 会 被 创建 。 等 号 (=) 用 来 给 变量 赋值 。 等 号 (=) 左边 是 一 个 变量 名 ， 等 号 (=) 右边 
是 存储 在 变量 中 的 值 。 代 码 如 下 《以 # 开 头 的 是 Python 中 的 单行 注释 ， 多 行 注释 使 用 三 个 
单 引号 (") 或 三 个 双 引 号 《"")): 


counter = 100 # 变 量 名 是 "counter"， 它 是 数字 整 型 变量 
miles = 1000.0 # 变 量 名 是 "miles"， 它 是 数字 浮 点 型 变量 
name = "CMUabc" # 变 量 名 是 "name"， 它 的 类 型 是 字符 串 
print (counter) #print () 用 于 输出 


Print (miles) 


print (name) 


变量 的 命名 要 注意 : 
1. 变量 的 名 字 尽 量 有 意义 ， 方 便 使 用 。 
2. 变量 的 名 字 不 能 用 数字 开头 。 
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运行 结果 如 下 : 


100 
1000.0 
CMUabc 


Python 3 中 有 六 个 标准 的 数据 类 型 数字 (Number)、 字 符 串 String)、 列 表 (List)、 
元 组 (Tuple)、 字 典 (Dictionary)、 集 合 (Set)。 


2.1.2 数字 


Python 中 数字 数据 类 型 用 于 存储 数值 ， 支 持 3 种 不 同 的 数值 类 型 。 

(1) 整 型 (int): 整 型 是 正 整数 或 负 整 数 ， 不 带 小 数 点 。 

(2) 浮 点 型 (float): 浮 点 型 由 整数 部 分 与 小 数 部 分 组 成 ， 浮 点 型 也 可 以 使 用 科学 计数 
法 表示 (如 2.4e2 =2.4X10?= 240)。 

(3) 复 数 (complex): 复数 由 实数 部 分 和 虚数 部 分 构成 , 可 以 用 a+ 如 或 者 complex(a,b) 
表示 ， 复 数 的 实 部 a 和 虚 部 5b 都 是 浮 点 型 。 


2.1.3 字符 串 
1. 创建 字符 串 


字符 串 是 Python 中 最 常用 的 数据 类 型 ， 可 以 使 用 单 引号 或 双 引号 创建 字符 串 ， 效 果 
是 相同 的 。 创 建 字符 串 只 要 为 变量 分 配 一 个 值 即 可 。 代 码 如 下 : 


Vl = "China Medical University'" 
V2 = "CMU" 


2. 访问 字符 串 中 的 值 

访问 字符 串 ， 可 以 使 用 方 括号 来 截取 字符 串 。 方 括号 中 的 数字 表示 截取 元 素 的 索引 。 
字符 串 中 的 字符 从 左 到 右 索引 默认 从 0 开始 ， 从 右 到 左 索 引 默 认 从 -1 开始 。 截取 时 包括 开 
始 位 置 的 元 素 ， 但 不 包括 结束 位 置 的 元 素 。 代 码 如 下 : 


Vl = "China Medical University'" 


V2 = "CMU" 

print ("v1[6:9]: "， v1[6:9]) ”# 截 取 vl 的 第 7 到 第 9 个 字符 ,注意 空格 也 是 字符 
print ("vw2[0]: ", v2[0]) # 截 取 v2 的 第 1 个 字符 

运行 结果 如 下 : 


V1l[6:9]: Med 

bd i CE 

说 明 : 

字符 串 、 列 表 和 元 组 都 是 Python 序列 ， 序 列 是 Python 中 最 基本 的 数据 结构 。 序 列 中 


的 每 


个 元 素 都 分 配 一 个 数字 ， 即 它 的 索引 。 
3， 转 义 字符 
需要 在 字符 中 使 用 特殊 字符 时 ，Python 用 反 斜 本 〈\) 转 义 字符 。 


转 义 字符 如 表 2-1 


所 示 。 
表 2-1 转 义 字符 
转 义 字符 描述 汉字 描述 描述 
\ (在 行 尾 时 ) ” 续 行 符 反 斜 杠 符号 单 引 号 
时 双 引 号 退 格 转 义 
\000 4 换行 回 车 
\oyy 八进制 数 yy 代 | 十 六 进 制 数 yy 
表 的 字符 ， 例 代表 的 字符 ， 
如 \ol2 代表 例如 \x0a 代表 
换行 换行 
下 面 这 段 代 码 中 使 用 了 转 义 字符 输出 反 斜 村 ， 代 码 如 下 : 
Vl = "China Medical University'" 
V2 = "CMU" 
print (vl, wl 
prini Cu Ny # 反 斜 杠 
BrimE (v2 v2 
运行 结果 如 下 : 
Vl: China Medical University 
XN 
V2: CMU 
4. 字符 串 格式 化 
Python 支持 格式 化 字符 串 的 输出 ， 最 基本 的 用 法 是 将 一 个 值 插入 到 一 个 有 字符 串 格式 
符 %s 的 字符 串 中 。 代 码 如 下 : 
print (" 我 来 自 %s 今年 sd 岁 !" % (' 中 国医 科大 学 '，20)) 
运行 结果 如 下 : 
我 来 自 中 国医 科大 学 今年 20 岁 ! 
Python 常用 字符 串 格式 化 符号 及 其 描述 如 表 2-2 所 示 。 
表 2-2 Python 常用 字符 串 格式 化 符号 及 其 描述 
符号 描述 符号 描述 
%s 格式 化 字符 串 %d 格式 化 整数 
%u 格式 化 无 符号 整 型 %o 格式 化 无 符号 八进制 数 
Wx 格式 化 无 符号 十 六 进 制 数 %e 用 科学 计数 法 格式 化 浮 点 数 第 
2 
章 
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2.1.4 列表 


1. 列表 的 创建 

列表 是 最 常用 的 Python 数据 类 型 ,列表 的 数据 项 不 需要 具有 相同 的 类 型 , 它 和 其 他 语 
言 的 数组 比较 类 似 ， 但 功能 更 强 。 

创建 一 个 列表 ,只 要 把 不 同 的 数据 项 用 逗号 分 阳 , 使 用 方 括号 括 起 来 即 可 。 代码 如 下 : 


listl = ['" 智 能 '， "医学 '，2008，20181] 

US E20 24 

Jist3 = [An, "Bn, We, wh"] 

2. 访问 列表 中 的 值 

使 用 下 标 索引 来 访问 列表 中 的 值 ， 也 可 以 使 用 方 括号 截取 字符 ， 与 访问 字符 串 中 的 值 
类 似 。 代 码 如 下 : 


list1 = [" 智 能 '， "医学 '，2008，2018] 
Ts E22 3 ol 

print ("iist1[0]: "™, 1list1[0]) 
Pein (LEsE2IL A LSE20ESS 


运行 结果 如 下 : 

list1[0] : 智能 
SET 

3. 更 新 列表 

可 以 对 列表 的 数据 项 进行 更 新 。 代 码 如 下 : 


list = [' 中 国 '"，' 医 大 '，2000，2018] 
prinea(n 第 三 个 元 素 为 0 TSEI20 
list[2] = 2010 

print ("更 新 后 的 第 三 个 元 素 为 : "，1ist[2]) 


运行 结果 如 下 : 


第 三 个 元 素 为 : 2000 
更 新 后 的 第 三 个 元 素 为 : 2010 


4. 删除 列表 元 素 
可 以 使 用 del 语句 来 删除 列表 的 元 素 。 代 码 如 下 : 


Ti1st = [* 中 国 "，“ 医 天 ”2000。 2018] 
priney (第 三 个 元 来 为 NSE[21) 
del 1list[2] 

print ("删除 第 三 个 元 素 后 : "，1ist) 


运行 结果 如 下 : 


第 三 个 元 素 为 : 2000 
删除 第 三 个 元 素 后 : [' 中 国 '，' 医 大 '，2018] 


2.1.5 元 组 
1. 元 组 的 创建 


Python 的 元 组 与 列表 类 似 ， 不 同 之 处 在 于 元 组 的 元 素 不 能 修改 。 元 组 使 用 小 括号 ， 列 
表 使 用 方 括号 。 创 建 元 组 只 需要 在 小 括号 中 添加 元 素 ， 并 使 用 逗号 隔 开 即 可 。 代 码 如 下 ; 


tupl = ('" 智 能 '， "医学 '，2000，2018) 
E22 


创建 空 元 组 代码 如 下 : 

tupl = () 

元 组 中 只 包含 一 个 元 素 时 ， 需 要 在 元 素 后 面 添 加 逗号 。 代 码 如 下 : 

tupl = (150,) 

2， 访问 元 组 

可 以 使 用 下 标 索引 来 访问 元 组 中 的 值 。 与 字符 串 类 似 ， 从 左 到 右 元 组 的 下 标 索 引 从 0 
开始 。 代 码 如 下 : 


('Python', 'C', 2000, 2020) 
E20 0 
print ("tupllOl: "CuplLoly 
prine ("tll tp 


运行 结果 如 下 : 


tupl[0]: Python 
Empoli aa 


3. 删除 元 组 

元 组 中 的 元 素 值 是 不 允许 删除 的 ， 但 可 以 使 用 del 语句 来 删除 整个 元 组 。 代 码 如 下 : 
tup = (' 计 算 机 '，' 高 级 语言 ') 

del tup 

print (tup) 


tupl 


以 上 代码 中 元 组 被 删除 后 ， 会 输出 异常 信息 “NameError: name 'tup' is not defined” 提 示 。 
2.1.6 字典 


1. 创建 字典 
字典 由 键 和 对 应 值 成 对 组 成 〈 键 / 值 对 又 称 条 目 或 元 素 ) ， 字 典 也 被 称 作 关联 数组 或 哈 


N 测 
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希 表 。 创 建 字典 的 代码 如 下 : 

ict = TD LOO0L am EC JAgoue LO 

说 明 : 

每 对 键 与 值 用 冒号 隔 开 , 各 对 之 间 用 逗号 分 隔 ,整体 放 在 花 括 号 中 。 键 必须 独一无二 ， 
但 值 则 不 必 。 值 可 以 取 任 何 数据 类 型 ， 但 键 必须 是 不 可 变 的 ， 如 字符 串 、 数 或 元 组 。 

2. 访问 字典 里 的 值 

要 访问 字典 里 的 值 ， 就 把 相应 的 键 放 入 方 括号 。 代 码 如 下 : 


dict = {'Name': 'Brown', 'Age': 17，"Class': 'First'} 
print ("dict['Name']: ", dict['Name']) 
print ("dict['Age']: ", dict['Age']) 


运行 结果 如 下 : 


dict['Name']: Brown 
dict['Age']: 17 


3， 修改 字 典 

修改 字典 的 方法 是 增加 新 的 键 / 值 对 或 修改 已 有 键 / 值 对 。 代 码 如 下 : 
dict = {'Name': 'Angel', 'Age': 20} 

dict['Age'] = 21 # 修 改 'Age' 的 数据 项 
dict['schoo1'] = "CMU" # 增 加 一 个 键 / 值 对 
print ("dict['Age']: ", dict['Age']) 

Print(vdictl School le wr acETSenoot 


运行 结果 如 下 : 


dictel"Nges ul: 2 
dict['school']: CMU 


4. 删除 字典 元 素 
可 以 删除 字典 里 的 单一 的 元 素 ， 也 可 以 清空 字典 所 有 元 素 ， 还 可 以 删除 整个 词典 。 代 
人 码 如 下 : 


dict = {'Name': 'Angel', 'Age': 20} 
del dict['Name'] # 删 除 键 是 "Name ' 的 条 目 


dict.clear() # 清 空 词典 所 有 条 目 
del dict # 删 除 词典 
2.1.7 集合 


集合 里 的 元 素 是 无 序 不 重复 的 , 集合 可 以 有 任意 数量 的 元 素 , 元 素 可 以 是 不 同 的 类 型 ， 
如 数字 、 元 组 、 字 符 串 等 。 要 创建 集合 ， 可 以 将 所 有 元 素 放 在 花 括 号 内 ， 以 逗号 分 隔 ， 或 
者 使 用 set0 函 数 。 要 创建 一 个 没有 任何 元 素 的 集合 ， 使 用 set0 函 数 〈 不 包含 任何 参数 )。 


代码 如 下 : 


i 用 花 括 号 创建 集合 

s2=set ('Python') # 用 set () 函数 创建 集合 
s3=set ('Hello') 用 set () 函数 创建 集合 
s4=set () # 创 建 空 集合 

print (s1) # 注 意 观察 结果 的 无 序 性 

print (s2) # 注 意 观察 结果 的 无 序 性 

print (s3) # 注 意 观察 结果 的 互 异性 和 无 序 性 
Print(s4) # 输 出 空 集合 

运行 结果 如 下 : 

A 


Mo pn 
{en or 
set () 


注意 : 由 于 集合 元 素 的 无 序 性 ， 每 次 的 运行 结果 可 能 不 同 。 
2.2 Python 的 基本 运算 符 


运算 符 是 用 来 表示 某 种 运算 的 符号 。 例 如 ， 在 表达 式 1l*10 中 ，11 和 10 称 为 操作 数 ， 
“*” 则 称 为 运算 符 。 和 其 他 计算 机 高 级 语言 类 似 ，Python 中 常用 的 运算 符 有 算术 运算 符 、 
字符 串 运算 符 、 比 较 运算 符 、 赋 值 运算 符 、 罗 和 辑 运算 符 、 成 员 运算 符 等 ， 下 面 通过 实例 逐 
-介绍 。 
2.2.1 算术 和 运算 符 


算术 运算 符 用 来 实现 数学 运算 。 代 码 如 下 : 


a=23 # 对 a 赋值 

b=10 # 对 b 赋值 

print (a + b) ##“+”， 加 法 运算 

print(a - b) #“-” 减法 运算 

print (a * b) #“*”， 乘法 运算 

Print(a / b) 着 “/”， 除 法 运算 ， 返 回 浮 点 型 

print (a %$ b) # “名 ”， 模 运算 ， 返 回 余数 

print (a ** b) #“#**”， 表示 a 的 b 次 宕 

print (a//b) #“//”， 整 除 ， 返 回 向 下 取 整 后 的 结果 

print (9.0//2.0) ##“//”， 整 除 ， 对 浮 点 数 执行 的 也 是 整除 

运行 结果 如 下 : 

人 
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2.2.2 字符 串 运算 符 
字符 中 运算 符 用 于 对 字符 串 的 操作 。 代 码 如 下 : 


运行 结果 如 下 : 


2.2.3 比较 运算 符 
比较 运算 符 用 于 比较 它 两 边 的 值 ， 并 确定 两 边 值 的 关系 。 代 码 如 下 : 


运行 结果 如 下 : 


2.2.4 赋值 运算 符 
赋值 运算 符 用 于 将 其 右 侧 表达 式 的 结果 赋 给 其 左 侧 的 变量 。 代 码 如 下 : 


运行 结果 如 下 : 


2.2.5 逻辑 运算 从 


逻辑 运算 符 就 是 常 说 的 与 、 或 、 非 在 Python 里 分 别 表 示 为 and、or、not。 代 码 


| 
局 
ND 测 
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print (a or b) ”在 “or” 如 果 两 个 操作 数 中 的 任何 一 个 为 真 ， 则 返回 真 
print (not a) 志 “not ”， 用 于 反 转 操作 数 的 逻辑 状态 


运行 结果 如 下 : 


False 
True 
False 


2.2.6 成 员 运 算 符 


Python 成 员 运算 符 用 于 测试 给 定 值 是 否 为 序列 中 的 成 员 ， 例 如 ， 用 于 对 字符 串 、 列 表 
或 元 组 的 操作 中 。 代 码 如 下 : 


直人 
b= 20 
| 
#“in”， 如 果 在 序列 中 找到 变量 的 值 ， 则 返回 True， 否 则 返回 False 
Ee 
print ("1 - 变量 a 在 给 定 的 列表 1ist 中 ") 
Slses 
print ("1 - 变量 a 不 在 给 定 的 列表 1ist 中 ") 
#“not in”， 如 果 在 序列 中 找 不 到 变量 的 值 ， 则 返回 True， 和 否则 返回 False 
TD no Tinos 
print ("2 - 变量 b 不 在 给 定 的 列表 1ist 中 ") 
elses 
print ("2 - 变量 b 在 给 定 的 列表 1ist 中 ") 
c=b/a 
5 i be 1 
print ("3 - 变量 c 在 给 定 的 列表 1ist 中 ") 
lse: 


print ("3 - 变量 c 不 在 给 定 的 列表 1ist 中 ") 
运行 结果 如 下 : 


1 - 变量 a 不 在 给 定 的 列表 1ist 中 
2 - 变量 b 不 在 给 定 的 列表 1ist 中 
3 - 变量 c 在 给 定 的 列表 1ist 中 


2.2.7 运算 符 的 优先 级 


Python 运算 符 的 优先 级 是 指 在 计算 表达 式 时 执行 运算 的 先后 顺序 。 先 执行 具有 较 高 优 
先 级 的 运算 ， 然 后 执行 较 低 优先 级 的 运算 。 较 为 常用 的 几 种 运算 符 的 优先 级 由 高 到 低 依次 
为 宕 运算 符 、 正 负 号 、 算 术 操 作 符 、 比 较 操 作 符 、 逻 辑 运算 符 。 代 码 如 下 : 


Print (-3**2 ) # 先 运算 3 的 2 次 徊 


print (2*5<=5+6/2) # 先 进行 算术 运算 ， 再 进行 逻辑 运算 
运行 结果 如 下 : 
-9 
False 
EF- 
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本 章 主要 介绍 了 Python 语言 的 基础 语法 ， 首 先 介 绍 了 6 种 基本 数据 类 型 数字 
(Number)、 字 符 串 (String)、 列 表 (List)、 元 组 (Tuple)、 字 典 (Dictionary)、 集合 (Sets)， 
然后 介绍 了 6 种 基本 运算 符 : 算术 运算 符 、 字 符 串 运算 符 、 比 较 运算 符 、 赋 值 运算 符 、 由 
辑 运 算 符 、 成 员 运 算 符 。 这 些 是 Python 语言 中 最 基础 的 内 容 ， 通 过 对 本 章 的 学 习 ， 读 者 能 
够 对 Python 语言 的 基础 语法 有 一 定 的 了 解 和 掌握 ， 为 后 续 章节 的 学 习 打下 良好 的 基础 。 
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导 学 

本 章 主 要 介绍 Python 程序 设计 中 的 程序 控制 结构 ， 通 过 本 章 的 学 习 可 以 掌握 Python 
程序 设计 的 基本 控制 结构 及 程序 设计 技巧 。 

了 解 : 3 种 基本 程序 控制 结构 的 流程 图 ， 程 序 设计 的 基本 方法 。 

掌握 : 3 种 基本 程序 控制 结构 ， 能 够 进行 具体 程序 的 设计 。 

Python 程序 设计 有 3 种 基本 程序 控制 结构 : 顺序 结构 、 分 支 结构 和 循环 结构 。 程 序 设 
计 通 常 以 顺序 结构 为 主 框架 ， 程 序 语 句 按 先后 顺序 逐条 命令 执行 。 当 程序 中 需要 判断 某 些 
条 件 或 多 次 重复 处 理 某 些 事件 时 ， 可 以 使 用 分 支 结构 或 循环 结构 控制 程序 的 执行 流程 。 


3.1 顺序 结构 


顺序 结构 是 程序 设计 的 基本 架构 结构 ， 在 一 个 没有 分 支 结构 和 循环 结构 的 程序 中 ， 它 
按 程 序 文件 中 命令 语句 的 先后 顺序 ， 逐 条 依次 执行 。 下 面 是 一 个 顺序 结构 程序 的 例子 。 

【 例 3-1】 BMI (Body Mass Index) 指数 ， 即 体质 指数 ， 是 用 体重 千克 数 除 以 身高 米 
数 平方 得 出 的 数字 ， 是 目前 国际 上 常用 的 衡量 人 体 胖 瘦 程 度 以 及 是 否 健康 的 一 个 标准 。 编 
写 一 个 求 体质 指数 的 程序 (体质 指数 “BMI) = 体重 (kg) 二 身高 2〈m))， 该 程序 为 顺序 
结构 设计 。 代 码 如 下 : 


w=float (input ("请 输入 您 的 体重 (kg): ") ) # 输 入 体重 值 ( 以 kg 为 单位 ) 
h=float (input ("请 输入 您 的 身高 (m): ") ) # 输 入 身高 值 (以 mm 为 单位 ) 
B=Ww/h**2 # 计 算 BMI 指数 

print ("您 的 BMI 指数 为 ",B) # 输 出 BMI 指数 


上 上 述 代码 输出 结果 如 图 3-1 所 示 。 
顺序 结构 程序 流程 图 如 图 3-2 所 示 ， 在 图 3-2 中 ， 有 一 个 程序 入 口 、 一 个 程序 出 口 ， 
程序 运行 过 程 中 依次 执行 语句 1 和 语句 2。 
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图 3-1 例 3-1 运行 结果 图 3-2 顺序 结构 的 流程 图 


3.2 分 支 结 构 


分 支 结构 就 是 按照 设计 好 的 条 件 ， 经 过 判断 后 有 选择 地 执行 程序 中 的 某 些 特定 语句 序 
列 , 或 使 程序 跳 转 到 指定 语句 后 继续 运行 。 在 Python 程序 设计 中 ， 分支 结构 包括 单 分 支 结 
构 、 双 分 支 结构 和 多 分 支 结构 。 
3.2.1 单 分 支 结构 (证 语句 ) 

站 语句 格式 : 

if 表达 式 : 

语句 序列 

下 面 是 一 个 单 分 支 结构 程序 的 例子 。 

【 例 3-2】 整数 中 ， 能 被 2 整除 的 数 是 偶数 。 编 写 一 个 整数 是 否 是 偶数 的 程序 ， 该 程 
序 为 单 分 支 结构 设计 。 代 码 如 下 : 

x=int (input (" 请 输入 一 个 整数 : ") ) “# 输 入 一 个 整数 


E20 # 判 断 x 是 否 为 偶数 
print ("这 个 数 是 偶数 ") # 条 件 表达 式 值 为 True， 输 出 该 数 是 偶数 


提示 : 在 Python 程序 设计 中 ， 通 过 命令 行 的 缩 进 标识 语句 序列 的 开始 与 结束 。 如 例 
3-2 中 这 语句 所 包含 的 语句 序列 为 该 程序 中 的 第 3 条 命令 ， 该 条 命令 起 始 位 置 比 第 2 条 命 
令 的 起 始 位 置 向 右 缩 进 4 个 空格 。 

上 述 代码 输出 结果 如 图 3-3 所 示 。 

单 分 支 结 构 程 序 功能 : 程序 运行 到 站 语句 时 ， 判 断 条 件 表达 式 是 否 成 立 ， 如 果 条 件 表 
达 式 的 值 为 True， 则 执行 内 顽 的 语句 序列 ， 如 果 条 件 表 达 式 的 值 为 False， 不 做 任何 操作 。 
单 分 支 结构 的 流程 图 如 图 3-4 所 示 。 
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3.2.2” 双 分 支 结构 (证 .else 语句 ) 


if…else 语句 格式 : 
if 表达 式 : 
语句 序列 1 
else: 
语句 序列 2 
下 面 是 一 个 双 分 支 结 构 程 序 的 例子 。 
【 例 3-3】 整数 中 ， 能 被 2 整除 的 数 是 偶数 ， 不 能 被 2 整除 的 数 是 奇数 。 编 写 一 个 整 
数 是 偶数 还 是 奇数 的 程序 ， 该 程序 为 单 分 支 结 构 设 计 。 代 码 如 下 : 
x=int (input (" 请 输入 一 个 整数 : ") ) # 输 入 一 个 整数 


1 # 判 断 x 是否 为 偶数 

print ("这 个 数 是 偶数 ") 井 条 件 表达 式 值 为 True， 输 出 该 数 是 偶数 
else: 

print ("这 个 数 是 奇数 ") 井 条 件 表 达 式 值 为 False， 输 出 该 数 是 奇数 


上 述 代 码 输 出 结果 如 图 3-5 所 示 。 

双 分 支 结构 程序 功能 : 程序 运行 到 让 语句 时 ， 判 断 条 件 表达 式 是 否 成 立 ， 如 果 条 件 表 
达 式 的 值 为 Tue， 则 执行 内 堪 的 语句 序列 1; 如 果 条 件 表达 式 的 值 为 False， 则 执行 else 后 
面 的 内 嵌 的 语句 序列 2。 双 分 支 结 构 的 流程 图 如 图 3-6 所 示 。 
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图 3-5 例 3-3 运行 结果 图 3-6“ 双 分 支 结构 的 流程 图 


3.2.3 多 分 支 结构 ( f…elif…else 语句 ) 


if…elif…else 语句 格式 : 


if 表达 式 1: 
语句 序列 1 
elif 表达 式 2: 
语句 序列 2 


elif 表达 式 n: 


语句 序列 n 
else: 


语句 序列 n+1 

下 面 是 一 个 多 分 支 结构 程序 的 例子 。 

【 例 3-4】 成 年 人 的 BMI 数值 划分 标准 为 : BMI 值 低 于 18.5， 体 重 过 轻 ; BMI 值 为 
18.5 一 23.9， 体 重 正常 ， BMI 值 为 24 一 27， 体 重 过 重 ; BMI 值 为 28 一 32， 肥 胖 ; BMI 值 高 
于 32， 非 常 肥胖 。 编 写 一 个 根据 BMI 指数 判断 体重 情况 的 程序 ， 该 程序 为 多 分 支 结构 设 
计 。 代 码 如 下 : 

B=float (input ("请 输入 您 的 BMI 指数 : ") ) # 输 入 BMI 指数 


# 通 过 多 分 支 结构 判断 体重 等 级 

if B>32: #BMI 值 高 于 32， 非 常 肥胖 
print ("您 的 体重 评定 等 级 是 非常 肥胖 ") 

elif B<=32 and B>=28: #BMI 值 为 28 一 32， 肥 胖 
print ("您 的 体重 评定 等 级 是 肥胖 ") 

elif B<=27 and B>=24: #BMI 值 为 24 一 27， 体 重 过 重 
print ("您 的 体重 评定 等 级 是 过 重 ") 

elif B<=23.9 and B>=18.5: #BMI 值 为 18.5 一 23.9， 体 重 正 常 
print ("您 的 体重 评定 等 级 是 正常 ") 

else: #BMI 值 低 于 18 .5， 体 重 过 轻 
print ("您 的 体重 评定 等 级 是 过 轻 ") 


上 述 代码 输出 结果 如 图 3-7 所 示 。 

多 分 支 结构 程序 功能 : 程序 运行 到 让 语句 时 ,判断 条 件 表达 式 1 是 否 成 立 ， 如 果 条 件 
表达 式 的 值 为 True， 则 执行 内 嵌 的 语句 序列 1;， 如 果 条 件 表达 式 的 值 为 False， 则 依次 判断 
每 个 elif 条 件 表达 式 是 否 成 立 ， 如 果 表 达 式 值 为 Tme， 则 运行 其 下 面 的 语句 序列 ， 如 果 所 
有 的 条 件 表达 式 都 不 成 立 ， 则 执行 else 后 面 的 语句 序列 。 多 分 支 结构 的 流程 图 如 图 3-8 所 示 。 


一 
False 


一 人 > 
True True 2 
True 
1 1 了 
| 语句 序列 1 | 语句 序列 2 语句 序列 mn 语句 序列 n+1 
了 
第 
图 3-7 例 3-4 运行 结果 图 3-8 多 分 支 结构 的 流程 图 3 
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上 面 的 程序 也 可 以 通过 分 支 结构 嵌 套 实现 ， 例 如 下 面 程序 : 


B=input ("请 输入 您 的 BMI 指数 : ") # 输 入 BMI 指数 
# 通 过 分 支 语 句 嵌 套 判 断 体重 等 级 
1 B>325 #BMI 值 高 于 32， 非 常 肥胖 
print ("您 的 体重 评定 等 级 是 非常 肥胖 ") 
if B>=28: #BMI 值 为 28 一 32， 肥 胖 
print ("您 的 体重 评定 等 级 是 肥胖 ") 
if B>=24: #BMI 值 为 24 一 27， 体 重 过 重 
print ("您 的 体重 评定 等 级 是 过 重 ") 
HEB 15: #BMI 值 为 18.5 一 23.9， 体 重 正常 
print (" 您 的 体重 评定 等 级 是 正常 ") 
OLE: #BMI 值 低 于 18 .5， 体 重 过 轻 


print ("您 的 体重 评定 等 级 是 过 轻 ") 


3.2.4 pass 语句 


时 ， 


在 Python 程序 设计 中 , pass 语句 的 作用 相当 于 空 语 句 ， 当 暂时 没有 确定 如 何 实现 功能 
可 以 使 用 pass 语句 来 进行 “ 占 位 ”。 例如 下 面 程序 : 

X=0 

a=input ("输入 a 的 值 ") 

b=input (" 输 入 b 的 值 ") 


if a<b: 
pass # 如 果 a 的 值 小 于 b 的 值 ， 执 行 pass 语句 
else: 
x=a # 如 果 a 的 值 大 于 等 于 b 的 值 ， 将 a 的 值 赋 给 x 
print (x) 


3.2.5 try*…except 语句 


try…except 语句 格式 : 


try: 
被 检测 的 语句 序列 
except< 异 常 名 >: 
异常 处 理 语句 序 列 


例如 下 面 程序 : 


Em 
x=1/0 

except ZeroDivisionError: # 除 数 为 0 异常 
print ("除数 为 0") 


3.3 循环 结构 

循环 结构 是 指 程序 在 执行 的 过 程 中 ， 其 中 的 某 段 语 句 序列 被 重复 执行 若干 次 。Python 
程序 设计 提供 了 for 循环 和 while 循环 。 
3.3.1 while 语句 

while 语句 格式 : 

while 表达 式 : 

语句 序列 
下 面 是 一 个 while 循环 程序 的 例子 。 


【 例 3-$】 编写 一 个 求 1+2+3+…+100 之 和 的 程序 ， 该 程序 用 while 循环 结构 设计 。 代 
人 码 如 下 : 


total=0 # 变 量 total 用 来 保存 最 终 的 和 
number=1 # 变 量 number 用 来 保存 1 一 100 的 整数 
while number<=100: ## 求 1 一 100 的 和 


total=total+number 
number=number+1 
print ("1 到 100 之 和 为 : ", total) 


上 述 代码 输出 结果 如 图 3-9 所 示 。 
while 循环 程序 的 功能 : 程序 每 次 运行 到 “while 表达 式 :” 语 句 时 ,判断 条 件 表达 式 是 


和 否 成 立 ， 如 果 条 件 表达 式 的 值 为 Tme， 则 反复 执行 循环 体内 的 语句 序列 ， 如 果 条 件 表达 式 
的 值 为 False， 则 循环 结束 。while 循环 结构 的 流程 图 如 图 3-10 所 示 。 


False 
表达 式 
[8 Python 3.65 Shell 
Fle Edit Shell Debug Options Window Help Y True 
Te 3.6.5 (v3.6.5:f59c0932bd, Nar 28 2018, 16 ~ 
Ey 7: 4 6) [Msc 900 St 《5 on Ta 
)e "copyright”, “credits” or“license()”for n 3 
pe ony 语句 序列 
RESTART: 6:/3-T7.py 


| 


图 3-9 例 3-5 运行 结果 


图 3-10 while 循环 结构 的 流程 图 
注意 : 如 果 程 序 每 次 运行 到 “while 表达 式 :” 语 句 时 
程序 为 死 循环 ， 程 序 运行 将 无 法 结束 。 例 如 下 面 程序 : 


total=0 


，“ 表 达 式 ”的 值 都 为 真 ， 则 该 
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number=1 
# 由 于 number 始终 等 于 1， 表 达 式 “number<=100” 始 终 为 真 ， 该 循环 为 死 循 环 
while number<=100: 
total=total+number 
print ("1 到 100 之 和 为 : ", total) 


3.3.2 for 语句 


for 语句 格式 : 
LB python 3.65 Shell 
Fle Edit Shell Debug Options Window Help for 变量 in 序列 : 
i 语句 序列 
copyright”, “credits” or Slicense 0” for a 
START: G6:/3-8.py | 下 面 是 一 个 for 循环 程序 的 例子 。 
中 【全 3-6】 编写 一 个 求 11213+…+10 之 和 的 程序 ,该 


程序 用 for 循环 结构 设计 程序 运行 结果 如 图 3-11)。 代 
图 3-11 例 3-6 运行 结果 码 如 下 : 
total=0 # 变 量 total 用 来 保存 最 终 的 和 
for x in [1,2,3,4,5,6,7,8,9,10]: ”变量 x 用 来 循环 控制 
total=total+x 
print ("1 到 10 之 和 为 : ",total) 


上 述 代码 输出 结果 如 图 3-11 所 示 。 

for 循环 程序 的 功能 ， 变量 遍历 序列 中 的 每 个 值 。 每 取 一 个 值 ， 如 果 这 个 值 在 序列 中 ， 
执行 语句 序列 ， 返 回 后 ， 再 取 下 一 个 值 ， 再 判断 ， 直 到 遍历 完成 ， 退 出 循环 。 序 列 可 以 是 
列表 、 元 组 或 字符 串 。 


3.3.3 ”循环 嵌 套 


Python 程序 设计 允许 在 一 个 循环 体 中 嵌入 另 一 个 循环 体 ， 对 于 while 循环 和 for 循环 ， 
两 种 循环 语句 可 以 自身 棋 套 ， 也 可 以 相互 嵌 套 ， 媒 套 的 层次 没有 限制 。 循 环 霸 套 执 行 时 ， 
每 执行 一 次 外 层 循环 ， 则 其 内 层 循环 必须 循环 执行 结束 后 ， 才 能 进入 到 外 层 循环 的 下 一 次 
循环 。 在 设计 堪 套 程序 时 ， 注 意 在 一 个 循环 体内 包含 另 一 个 完整 的 循环 结构 。 

【 例 3-7】 编写 一 个 输出 九 九 乘法 表 的 程序 ， 该 程序 为 循环 雹 套 结构 设计 。 代 码 如 下 : 


for i in range(1,10) : #range (1,10) 表 示 1~9 之 间 的 整数 
for j in rang(1,i+1): #range (1,i+1) 表 示 1~i 之 间 的 整数 
print (i*j,end="\t") # 行 中 每 个 值 以 "\t" 隔 开 ，"\t" 为 制 表 符 
print () # 换 行 


提示 : 范围 函数 range(start, stop[; step]) 所 表示 的 计数 范围 从 start 开始 , 到 stop-1 结束 ， 
step 为 计数 变化 的 步 长 值 ， 默 认为 1。 例如， 上 面 程序 中 的 range(1,10) 的 步 长 值 为 1， 表 示 
1~9 的 整数 。 

上 述 代 码 输出 结果 如 图 3-12 所 示 。 


mm 


tm14 Col:4 
图 3-12 例 3-7 运行 结果 
例 3-7 也 可 以 用 while 循环 嵌 套 来 实现 ， 代 码 如 下 : 
i=1 
while i<=9: # 外 层 循环 
j=1 
While Jj<=1: # 内 层 循环 的 终点 是 一 个 变化 的 量 
print (i*j],end="\t") 
j=j+1 ## 内 层 循环 变量 的 变化 
i=i+l 埋 外 层 循环 变量 的 变化 
print() 


3.3.4 break 语句 和 continue 语句 


break 语句 和 continue 语句 都 可 以 放 在 循环 体内 ， 通 常 放 在 循环 体内 的 分 支 语 句 结 构 
中 。break 语句 的 作用 是 结束 当前 循环 ， 使 得 整个 循环 提前 结束 ，continue 语句 的 作用 是 忽 
略 continue 之 后 的 语句 ， 提 前 回 到 下 一 次 循环 。 具 体 的 流程 变化 如 图 3-13 所 示 。 


图 3-13 ”break 语句 和 continue 语句 流程 示意 图 


大 秽 天 移 
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break 语句 和 continue 语句 的 用 法 如 下 : 


注意 : 当 程序 设计 为 死 循环 ， 然 后 中 途 判 断 用 break 退出 循环 时 ， 称 为 半路 循环 。 例 
如 下 面 程序 : 


本 章 小 结 


本 章 主要 介绍 了 Python 程序 设计 中 的 顺序 结构 、 分 支 结构 和 循环 结构 三 种 控制 结构 ， 
及 三 种 结构 中 可 能 用 到 的 pass 语句 、break 语句 和 continue 语句 。 通 过 对 本 章 的 学 习 ， 能 
够 掌握 Python 程序 设计 的 基本 语法 和 基本 思路 ， 为 后 续 章节 的 学 习 打下 良好 的 基础 。 


第 4 章 函数 、 模 块 与 文件 


导 学 

函数 是 可 重用 的 程序 代码 段 ， 可 以 在 程序 的 执行 过 程 中 多 次 调用 。 模 块 是 一 种 组 织 形 
式 ， 它 把 许多 逻辑 上 有 关联 的 代码 存放 到 独立 文件 中 ， 当 程序 功能 越 来 越 多 时 ， 可 通过 引 
入 模块 实现 重 利 用 。 本 章 将 学 习 定 义 及 使 用 函数 、 模 块 ， 并 使 用 Python 命令 对 文件 进行 操作 。 

了 解 : 函数 、 模 块 的 定义 。 

掌握 : 函数 、 模 块 的 使 用 ; 文件 的 打开 、 关 闭 及 读 写 操作 。 

在 程序 设计 中 ， 可 以 利用 函数 或 模块 ， 减 少 重复 编写 程序 段 的 工作 量 。 通 过 Python 的 
文件 操作 函数 ， 可 以 实现 程序 运行 过 程 中 的 读 写 文件 操作 。 


4.1 函 数 
函数 是 组 织 好 的 、 可 重复 使 用 的 、 用 来 实现 一 个 或 多 个 特定 功能 的 代码 段 。 函 数 能 提 
高 应 用 的 模块 性 和 代码 的 重复 利用 率 。Python 中 的 函数 可 分 为 系统 函数 和 自 定义 函数 。 
4.1.1 系统 函数 
系统 函数 也 称 为 内 置 函 数 (Built-in Functions)， 是 Python 已 经 定义 好 的 函数 ， 供 人 们 


直接 调用 ， 下 面 列举 一 些 系统 函数 的 使 用 方法 。 
(1) 取 绝对 值 函数 abs0 语 法 格式 如 下 : 


abs (x) 


x 为 数值 或 数值 表达 式 ， 函 数 返 回 x 的 绝对 值 。 
【 例 4-1】 取 绝 对 值 函 数 的 使 用 方法 。 程 序 代码 如 下 : 


# 取 绝对 值 函数 的 使 用 方法 
print ("abs(-5) : ", abs(-5)) 
prant  ( "absol2) ce ™ abs(t3 Ly) 


程序 运行 结果 如 下 : 


abs(-5) : 5 
和 


(2) 四 售 五 入 函数 round 0 语法 格式 如 下 : 


round( x [, n] ) 


二 级 Python 顷 栓 背 丧 
x 和 为 数值 表达 式 ， 返 回 值 为 浮 点 数 x 的 四 舍 五 入 值 ， 保 留 n 为 小 数 。 不 写 n， 表 
示 保 留 到 整数 位 。 
【 例 4-2】 四 舍 五 入 函数 的 使 用 方法 。 程 序 代码 如 下 : 


print (round (12.358,2)) # 对 数值 12 .358 四 舍 五 入 ， 保 留 两 位 小 数 
print (round (12.358)) 井 对 数值 12 .358 四 舍 五 入 ， 保 留 到 整数 位 
程序 运行 结果 如 下 : 

12.36 

I 


(3) 转换 为 浮 点 函数 float0 语 法 格式 如 下 : 

float([x]) 

X 为 数值 ， 返 回 值 为 浮 点 数 。 参数 为 空 时 ， 返 回 0.0。 
【 例 4-3】 转换 为 浮 点 函数 的 使 用 方法 。 程 序 代码 如 下 : 


# 转 换 为 浮 点 函数 的 使 用 方法 

print (float (105+1)) # 整 数 

print (float (-105.6)) 井 小 数 

print (float ('105')) # 字 符 串 

print (float ()) # 参 数 为 空 ， 返 回 0.0 


程序 运行 结果 如 下 : 


(4) 转换 为 整 型 函数 int0 语 法 格式 如 下 : 
int([x]) 


X 为 数值 ， 返 回 值 为 整 型 数据 。 参 数 为 空 时 ， 返 回 0。 
【 例 4-4】 转换 为 整 型 函数 的 使 用 方法 。 程 序 代码 如 下 : 


# 转 换 为 整 型 函数 的 使 用 方法 

print (int()) # 参 数 为 空 ， 得 到 结果 0 
print (int (3.6)) # 取 整 ， 不 四 舍 五 入 
程序 运行 结果 如 下 : 

0 

3 


(5) 字符 串 处 理 函 数 str0 语 法 格式 如 下 : 


str (object) 


object 为 对 象 ， 返 回 值 为 字符 型 数据 。 参 数 为 空 时 ， 返 回 空 字符 上 


【 例 4-5】 字符 串 处 理 函 数 的 使 用 方法 。 程 序 代码 如 下 : 
#5tr 函数 功能 是 将 对 象 转换 成 其 字符 串 表 现形 式 


过 


Print(str()) 


# 参 数 为 定 ， 返 回 值 为 空 字符 串 


print (str (123)) ## 将 数值 转换 为 字符 串 
程序 运行 结果 如 下 : 

123 

(6) 范围 函数 rangeO 语 法 格式 如 下 : 


range (start, stop[, step]) 


start: 计数 从 start 开始 。 默 认 是 从 0 开始 。 如 range (5) 等 价 于 range (0，5); 
stop: 计数 到 stop 结束 ， 但 不 包括 stop。 如 range (0，5) 表示 [0, 1, 2, 3, 4]， 没 有 5; 
step: 步 长 ， 默 认为 1。 如 range (0，5) 等 价 于 range(0, 5, 1)。 


【 例 4-6】 范围 函数 的 使 用 方法 。 程 序 代码 如 下 : 
# 范 围 函数 的 使 用 方法 


for i in range(10) : 
print (i, end="\t") 

print() 

for 1 in range(l, 11): 
print (i,end="\t") 

print () 


# 从 0 开始 到 9 


# 从 1 开始 到 10 


for i in range(0，30，5): # 步 长 为 5 
print (i,end="\t") 

print () 

for i in range(0，10，3):  # 步 长 为 3 
print (i,end="\t") 

print () 

for i in range (0，-10，-1) : # 负 数 
print (i,end="\t") 

程序 运行 结果 如 下 : 

0 Eb 2 EE; 4 S 6 8 
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还 可 以 使 用 Python 自 带 的 集成 开发 环境 IDLE 通过 命令 查看 其 他 系统 函数 ,命令 代码 
如 下 : 


>>>import builtins 

>>>dir (builtins) 第 
4 
章 


亏 数 ， 陛 区 与 允 伴 
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系统 函数 都 是 在 builtins 模块 中 定义 的 函数 , 而 builtins 模块 默认 在 Python 环境 启动 的 
时 候 就 自动 导入 ， 所 以 用 户 可 以 直接 使 用 这 些 函 数 。 用 户 还 可 以 通过 help0 函 数 查 看 函数 
或 模块 用 途 的 详细 说 明 。 

【 例 4-7】 查看 系统 函数 的 详细 说 明 。 程 序 代码 如 下 : 

坦 查 看 数学 运算 函数 abs () 的 详细 说 明 

help('abs') 


程序 运行 结果 如 下 : 


Help on built-in function abs in module builtins: 


abs (x, /) 
Return the absolute value of the argument. 


4.1.2 函数 的 定义 


定义 函数 的 规则 为 : 

(1) 函数 需要 先 定义 后 调用 。 函 数 以 def 关键 词 开头 ，def 是 define 的 缩写 。 后 接 函 数 
名 称 和 圆 括 号 0。 

(2) 圆 括号 中 的 内 容 为 参数 或 变量 。 

(3) 函数 内 容 以 冒号 起 始 ， 并 且 缩 进 。 

(4) return [表达 式 ] 用 于 结束 函数 ， 并 可 以 返回 一 个 值 。 不 带 表 达 式 的 retum 语句 返回 
值 为 空 。 

定义 函数 语法 格式 如 下 : 

def functionname (parameters): 


function suite 
return [expression] 


默认 情况 下 ， 参 数值 和 参数 名 称 是 按 函 数 声 明 中 定义 的 顺序 匹配 起 来 的 。 
【 例 4-8】 定义 一 个 函数 ,其 功能 是 输出 欢迎 词 “Hello! 中 国医 科大 学 计算 机 教研 室 ”。 


程序 代码 如 下 : 
# 输 出 欢迎 词 “Hello! 中 国医 科大 学 计算 机 教研 室 ” 
def Showhello() : # 定 义 函 数 名 Showhe1llo 
print ('Hello! 中 国医 科大 学 计算 机 教研 室 ') # 输 出 内 容 
Showhello () ## 调 用 函数 
程序 运行 结果 如 下 : 


Hello! 中 国医 科大 学 计算 机 教研 室 


4.1.3 函数 的 参数 和 返回 值 
参数 在 函数 中 相当 于 一 个 变量 ， 而 这 个 变量 的 值 是 在 调用 函数 的 时 候 被 赋予 的 。 函 数 


的 参数 分 为 形式 参数 和 实际 参数 。 形 式 参数 是 定义 函数 名 和 函数 体 时 需要 用 的 参数 ， 目 的 
是 用 来 接收 调用 该 函数 时 传递 的 参数 。 实 际 参数 是 传递 给 被 调用 函数 的 值 。 函数 体 中 retum 
语句 的 结果 就 是 返回 值 。 

【 例 4-9】 定义 一 个 函数 ， 其 功能 是 计算 正方 形 面积 。 程 序 代 码 如 下 : 


坦 函 数 功 能 为 计算 已 知 边 长 的 正方 形 面积 
def Showmul (x): # 定 义 函数 名 Showmul， 参 数 为 x 


return x*x # 返 回 值 : 面积 的 值 为 边 长 乘 以 边 长 
n=3 
y=Showmul (n) ## 调 用 函数 ， 返 回 值 赋值 给 变量 y，n 为 实际 参数 
print (y) # 输 出 正方 形 面积 
程序 运行 结果 如 下 : 


9 

函数 Showmul(x) 中 的 x 称 为 形式 参数 ， 它 就 像 变量 一 样 ， 但 它 的 值 是 在 调用 函数 的 时 
候 定义 的 ， 而 非 在 函数 本 身 内 赋值 。 
4.1.4 变量 的 作用 城 

变量 的 作用 域 即 定义 的 变量 可 以 使 用 的 范围 。 按 作用 域 的 范围 分 类 ， 变 量 分 为 全 局 变 
量 和 局 部 变量 。 全 局 变量 是 指 在 程序 中 定义 的 变量 (不 是 在 函数 内 )， 在 整个 程序 中 都 可 以 
使 用 。 局 部 变量 是 指 在 函数 内 定义 的 变量 ， 只 能 在 该 函数 内 起 作用 。 

【 例 4-10】 区 分 全 局 变量 和 局 部 变量 。 程 序 代码 如 下 : 


# 区 分 全 局 变量 和 局 部 变量 

def pandl (x): # 定 义 函数 名 pandl1， 参 数 为 x 
Print ("publie x is" x) # 输 出 传递 过 来 的 变量 值 
2 
BilinE (uiocan x sea # 输 出 局 部 变量 的 值 

x =22 # 全 局 变量 

pandl (x) # 调 用 函数 pandl 


print ('public x is still ',x) # 输 出 全 局 变量 的 值 
程序 运行 结果 如 下 : 


public x is 22 
Toca 区 各 允 
public x is still 22 


4.1.5 遂 归 调用 


递归 调用 即 函数 在 执行 过 程 中 直接 或 间接 调用 自己 本 身 。 
【 例 4-11】 求 n 的 阶乘 。 程序 代 码 如 下 : 


斐 利用 函数 的 递归 调用 ， 求 n 的 阶乘 


未 雪 ， 帮 基 与 允 伴 


第 


性 


章 


二 级 Python 绑 杖 背 丧 


# 定 义 求 阶乘 的 函数 
def fact(n) : 
if n=—=l: 
£=1 


else: 
f=n*fact (n-1) 二 递归 调用 
return f£ 


print (fact (3)) # 输 出 调用 函数 fact (3) 后 的 值 
程序 运行 结果 如 下 : 
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4.2 模 块 


模块 (Module) 是 包含 了 Python 对 象 定义 和 有 你 辑 组 织 的 Python 语句 的 文件 。 模 块 
能 定义 函数 、 类 和 变量 ， 模 块 里 也 能 包含 可 执行 的 代码 。 为 了 在 其 他 程序 中 重用 模块 ， 模 
块 的 文件 名 必须 以 .py 为 扩展 名 。 

如 果 一 个 文件 里 的 程序 代码 过 多 ， 维 护 起 来 会 很 困难 。 为 了 编写 可 维护 的 代码 ， 可 以 
将 众多 函数 分 组 ， 分 别 存放 到 不 同 的 文件 里 ， 每 一 个 扩展 名 为 .py 的 文件 都 称 为 模块 。 

1. 模块 的 导入 

在 Python 中 ， 使 用 import 语句 导入 模块 ， 可 以 使 用 以 下 两 种 方法 。 

(1) 导入 一 个 模块 ， 语 法 格式 如 下 : 

import 模块 name 

调用 模块 中 的 函数 时 需要 加 上 前 级 ， 如 : 模块 _ name. 函 数 _name。 

(2) 只 导入 模块 里 的 某 些 函 数 ， 语 法 格式 如 下 : 

from 模块 name import 函数 _namel， 函 数 _name2, … 

这 个 声明 不 会 把 整个 模块 导入 到 当前 的 命名 空间 中 ， 只 会 将 它 里 面 的 namel 或 name2 
单个 引入 到 执行 这 个 声明 的 模块 的 全 局 符号 表 。 调 用 的 时 候 可 以 直接 写 函 数 名 ， 不 用 加 
前 级 。 

注意 : 编写 代码 时 ， 需 要 把 导入 命令 放 在 脚本 的 顶端 。 

2. 模块 的 使 用 

Python 本 身 内 置 了 很 多 非常 有 用 的 模块 ， 通 过 导入 ， 可 以 使 用 其 功能 。 常 用 模块 有 数 
学 运算 模块 math， 时 间 模 块 tme， 日 期 时 间 模 块 datetime， 随 机 数 模块 random， 数 据 类 型 
模块 collections 等 。 

【 例 4-12】 两 种 导入 模块 的 方法 。 程 序 代码 如 下 : 


# 使 用 from 导入 math 模块 中 的 数学 函数 xt 
from math import pi 


print (pi) # 调 用 nt 函数 ,直接 写 函数 名 ， 不 用 写 前 级 
# 使 用 import 导入 math 模块 中 所 有 的 数学 函数 


import math # 导 入 math 中 的 所 有 函数 
print (math.sqrt (100)) 提 调 用 函数 sqrt 对 100 进行 平方 根 运算 。 调 用 时 ， 要 写 前 级 
程序 运行 结果 如 下 : 
3.141592653589793 
10.0 
43 文 件 


计算 机 中 的 文件 是 指 保存 在 磁盘 上 的 、 有 罗 辑 意义 的 、 由 字 节 组 成 的 信息 。 文 件 按照 
编码 方式 分 为 文本 文件 和 二 进 制 文件 。 所 以 在 用 Python 读 写 文件 的 时 候 ， 要 注意 文件 编码 
的 种 类 ，Python 内 部 的 字符 串 一 般 都 是 Unicode 编码 。 对 文件 的 操作 包括 文件 的 创建 〈 打 
开 )、 关 闭 、 读 和 写 等 。 Python 中 文件 的 操作 过 程 通常 是 先 通过 创建 一 个 file 类 的 对 象 打开 
一 个 文件 ; 再 使 用 file 类 的 read0 或 write0 方 法 读 写 文件 ; 最 后 ， 完 成 对 文件 的 操作 时 要 调 
用 close0) 方 法 关闭 文件 。.txt 文件 是 广泛 使 用 的 数据 文件 格式 ， 本 书 以 .txt 为 例 ， 介 绍 对 文 
件 的 操作 。 


4.3.1 文件 的 打开 与 关闭 


Python 中 ， 文 件 的 打开 与 关闭 分 别 用 到 open0 和 close0， 下 面 分 别 介绍 其 使 用 方法 。 

(1) 文件 的 打开 

Python 打开 文件 时 必须 先 用 内 置 的 open0 函 数 打开 一 个 文件 ， 创 建 一 个 file 对 象 ， 相 
关 的 方法 才 可 以 调用 它 进行 读 写 。Python 打开 文件 函数 open0 语 法 格式 如 下 : 


file object = open(file name [, access mode] [，buffering]) 


各 个 参数 的 细节 如 下 : 

file name: file_ name 变量 是 包含 了 要 访问 的 文件 名 称 的 字符 串 值 。 

access_ mode: access_ mode 决定 了 打开 文件 的 模式 ， 包 括 只 读 、 写 入 、 追 加 等 。 常 用 
参数 如 表 4-1 所 示 。 这 个 参数 是 非 强制 的 ， 默 认 文件 访问 模式 为 只 读 “r”。 

buffering: 如 果 buffering 的 值 被 设 为 0， 就 不 会 有 寄存 。 如 果 buffering 的 值 取 1， 访 
问 文件 时 会 寄存 行 。 如 果 将 buffering 的 值 设 为 大 于 1 的 整数 ， 表 明了 这 就 是 寄存 区 的 缓冲 
大 小 。 如 果 取 负 值 ， 寄 存 区 的 缓冲 大 小 则 为 系统 默认 。 


表 4-1 打开 文件 模式 参数 列表 


模式 名 模式 描述 

二 只 读 模 式 

w 写 模式 

a 追加 模式 

b 二 进 制 模式 

Tt 读 写 模式 ， 以 r+ 打开 文件 ， 写 入 的 内 容 为 追加 第 

wt 读 写 模式 ， 以 w+ 打开 文件 ， 读 取出 来 的 内 容 为 空 4 
圭 


未 雪 ， 帮 区 与 允 伴 


二 级 Python 和 须 丁 兹 现 


一 个 文件 被 打开 后 ， 就 有 了 一 个 fle 对 象 ， 用 户 可 以 得 到 有 关 该 文件 的 各 种 属性 。file 
对 象 相关 的 属性 如 表 4-2 所 示 。 


表 4-2 ”file 对 象 的 相关 属性 


属性 名 描述 

file.closed 如 果 文 件 已 被 关闭 返回 tue， 和 否则 返回 false 

file.mode 返回 被 打开 文件 的 访问 模式 

file.name 返回 文件 的 名 称 

file.softspace 如 果 用 print0 输 出 后 ， 必 须 跟 一 个 空格 符 ， 则 返回 false。 否 则 返回 true 


(2) 文件 的 关闭 

file 对 象 的 close0 方 法 刷新 缓冲 区 里 还 没 写 入 的 信息 ， 并 关闭 该 文件 ， 这 之 后 便 不 能 
再 进行 写 入 。 当 一 个 文件 对 象 的 引用 被 重新 指定 给 另 一 个 文件 时 ，Python 会 关闭 之 前 的 文 
件 。 及 时 关闭 文件 是 编写 程序 良好 的 习惯 。Python 关闭 文件 close() 方 法 语法 格式 如 下 : 


fileobject.close() 
【 例 4-13】 打开 、 关 闭 文 件 的 方法 (预先 准备 一 个 test.txt 文本 文件 )。 程 序 代 码 如 下 : 


# 打 开 test .txt 文本 文件 ， 输 出 文本 内 容 ， 使 用 结束 ， 关 闭 文件 

# 打 开 一 个 文件 ， 参 数 为 只 读 模 式 

天 = "open( test. txt", YET) 

# 如 果 文 件 存放 路 径 为 e 盘 根 目录 ， 可 以 改写 为 open (r"e:\test.txt", "r") 
print ("文件 名 : "，f1.name)  # 输 出 文件 名 

fl.close() # 关 闭 打 开 的 文件 


昌 序 运行 结果 如 下 : 
文件 名 : test.txt 


用 只 读 模式 打开 路 径 下 对 应 的 文本 文件 ， 如 果 要 打开 的 对 象 不 存在 ， 程 序 会 报错 。 报 
背 内 容 如 下 : 


FileNotFoundError: [Errno 2] No such file or directory 
4.3.2 文件 的 读 操作 
(1) read0 方 法 可 以 从 一 个 打开 的 文件 中 读 取 一 个 字符 串 ， 语 法 格式 如 下 : 


fileobject.read([count]) 

在 这 里 ， 被 传递 的 参数 是 要 从 已 打开 文件 中 读 取 的 字 节 计数 。 该 方法 从 文件 的 开头 开 
始 读 入 ,如 果 没 有 传 入 参数 count， 它 会 尝试 尽 可 能 多 地 读 取 更 多 的 内 容 ， 很 可 能 是 直到 文 
件 的 末尾 。 需 要 重点 注意 的 是 ，Python 字符 串 可 以 是 二 进 制 数据 ， 而 不 仅仅 是 文字 。 

【 例 4-14】 打开 文本 文件 testtxt， 读 所 有 字符 串 。 程 序 代 码 如 下 : 

# 打 开 test .txt 文本 文件 ， 读 文本 内 容 ， 使 用 结束 ， 关 闭 文件 


fl = open("test.txt", "r") # 打 开 一 个 文件 ,参数 为 只 读 


print ("文件 名 : "，f1.name) ## 输 出 文件 名 
print ("文本 内 容 : "，f1.read())  # 读 文件 内 容 
fl.close() # 关 闭 打开 的 文件 
程序 运行 结果 如 下 : 


文件 名 : ”test.txt 

文本 内 容 : ”Hello 1! 智能 医学 ! 
Knowledge is power. 

Keep on going never give up. 


【 例 4-15】 打开 文本 文件 testtxt， 读 出 前 6 个 字符 。 程 序 代 码 如 下 : 
# 打 开 test .txt 文本 文件 ， 读 部 分 文本 内 容 , 使 用 结束 , 关闭 文件 


£1 = OpenfeEeSEEHEXEE RE # 打 开 一 个 文件 ,参数 为 只 读 
print ("文件 名 : "，f1.name) # 输 出 文件 名 
print ("文本 内 容 : "，fl.read(6)) # 读 前 六 个 字符 
fl.close() # 关 闭 打开 的 文件 

显 序 运行 结果 如 下 : 


文件 名 :test .txt 
文本 内 容 : ”Hello! 


(2) readline() 方 法 可 以 每 次 读 出 一 行内 容 ， 语 法 格式 如 下 : 
fileobject.read() 


该 方法 读 取 时 占用 内 存 小 ， 比 较 适 合 大 文件 ， 返 回 一 个 字符 串 对 象 。 
【 例 4-16】 打开 文本 文件 testtxt， 读 出 第 一 行 字符 串 。 程 序 代 码 如 下 : 


# 打 开 test .txt 文本 文件 ， 读 部 分 文本 内 容 ， 使 用 结束 ， 关 闭 文件 


£1 = open("tost. txt™ wr") # 打 开 一 个 文件 ,参数 为 只 读 
print (" 文 件 名 : "，f1.name) # 输 出 文件 名 

print ("文本 内 容 : "，fl.readline())  # 读 第 一 行 字 符 串 
£1.close() # 关 闭 打 开 的 文件 


程序 运行 结果 如 下 : 
文件 名 : test.txt 
文本 内 容 : ”Hello1! 智 能 医学 ! 


4.3.3 文件 的 写 操 作 
(1) write() 方 法 可 将 任何 字符 串 写 入 一 个 打开 的 文件 ， 语 法 格式 如 下 : 
fileobJject.write (string) 


注意 : 在 写 文件 之 前 ， 如 果 用 “w” 写 模式 打开 已 有 文件 ， 那 么 写 入 字符 串 时 会 覆盖 | 4 


感 稀 、 磅 辫 与 艾 们 


二 级 Python 须 醒 背 击 


文件 原 有 内 容 。 
【 例 4-17】 打开 文本 文件 testtxt， 写 入 两 行 字符 串 。 程 序 代码 如 下 : 
# 打 开 test.txt 文本 文件 ， 输 出 并 写 入 文本 内 容 ， 使 用 结束 ， 关 闭 文件 


£1 = Open ("tost. txE™, "2") # 打 开 一 个 文件 ,参数 为 只 读 
print ("文件 名 : "，f1.name) # 输 出 文件 名 
prinE(" 文 本 内 容 ; ”ff1.read()) 提 读 文件 内 容 

fl.close() 塌 关 闭 打 开 的 文件 

# 以 追加 模式 打开 文件 

£1 = open("Etest .Ext", "aw) # 打 开 一 个 文件 ,参数 为 追加 
fl.write("\nHello!NnEveryonelNn") # 追 加 新 内 容 ，\n 代表 换行 
fl.close() 井 关闭 打 开 的 文件 

# 以 只 读 模式 打开 文件 

fl open(vteoat txt wrw) # 打 开 一 个 文件 ,参数 为 只 读 


print (" 写 入 后 的 文本 内 容 : "，f1.read()) 坦 读 文件 内 容 
fl.close() 关闭 打开 的 文件 


旦 序 运行 结果 如 下 : 


文件 名 :test .txt 

文本 内 容 : ”Hellol! 智 能 医学 ! 
Knowledge is power. 

Keep on going never give up. 
写 入 后 的 文本 内 容 : ”Hello! 智能 医学 ! 
Knowledge is power. 

Keep on going never give up. 
Hello! 

Everyone! 


此 例题 中 对 文件 进行 了 三 次 打开 及 关闭 。 如 果 将 第 一 次 打开 文件 的 参数 进行 改变 ， 把 
“rT” 只 读 模 式 改 为 “r+” 读 写 模式 ， 则 可 以 省 去 第 二 次 文件 的 打开 及 关闭 ， 程 序 代 码 如 下 : 

# 打 开 test .txt 文本 文件 ， 输 出 并 写 入 文本 内 容 ， 使 用 结束 ， 关 闭 文件 

# 打 开 一 个 文件 ,参数 为 读 写 ， 写 入 的 内 容 为 追加 


{1 = open("test etrt, TEA) 


print ("文件 名 : "，f1.name) # 输 出 文件 名 

print ("文本 内 容 : "，f1.read()) # 读 文件 内 容 
fl.write("\nHello!\nEveryone!\n") # 追 加 新 内 容 ，\n 代表 换行 
£1.close() # 关 闭 打 开 的 文件 

# 以 只 读 模式 打开 文件 


fl = open("test.txt", "r") 
print (" 写 入 后 的 文本 内 容 : "，f1.read()) 塌 读 文件 内 容 
fl.close() 坦 关闭 打开 的 文件 


运行 结果 是 一 样 的 。 
(2) writelines () 方 法 可 将 任何 字符 串 序列 写 入 到 一 个 打开 的 文件 ， 语 法 格式 如 下 : 


fileObject. writelines (list) 


该 序列 可 以 是 任何 字符 串 ， 字 符 串 为 一 般 列表 。 
【 例 4-18】 打开 文本 文件 test.txt， 写 入 三 行 字 符 串 列表 。 程 序 代 码 如 下 : 


# 打 开 test .tzxt 文本 文件 ， 输 出 并 写 入 文本 内 容 ， 使 用 结束 ， 关 闭 文件 
test1list=["\n 列表 追加 第 一 项 \n", "列表 追加 第 二 项 \n", "列表 追加 第 三 项 "] 
# 打 开 一 个 文件 , 参数 为 读 写 ， 写 入 的 内 容 为 追加 


E1 = open("test.txt", "r+") 


print ("文件 名 : "，f1.name) # 输 出 文件 名 
print (" 文 本 内 容 : "，f1.read()) # 读 文件 内 容 
fl.writelines (testlist) 追加 新 内 容 ，\n 代表 换行 
fl.close() # 关 闭 打 开 的 文件 

# 以 只 读 模 式 打开 文件 


El = open("test.txt", "“r") 
print (" 写 入 后 的 文本 内 容 : "，f1.read()) 塌 读 文件 内 容 
fl.close() 井 关 闭 打 开 的 文件 


旦 序 运行 结果 如 下 : 


文件 名 :test .txt 

文本 内 容 : ”Hellol! 智 能 医学 ! 
Knowledge is power. 

Keep on going never give up. 
写 入 后 的 文本 内 容 : ”Hel1o! 智 能 医学 ! 
Knowledge is power. 

Keep on going never give up. 
列表 追加 第 一 项 

列表 追加 第 二 项 

列表 追加 第 三 项 


4.3.4 文件 的 指针 定位 


fseek 0 方法 用 于 移动 文件 读 取 指 针 到 指定 位 置 。 语 法 格式 如 下 : 
f.seek(offset, from what) 


其 中 from what 表示 开始 读 取 的 位 置 ，offset 表示 从 from_what 再 移动 一 定量 的 距离 ， 


比如 fseek(10, 3) 表 示 定 位 到 第 三 个 字符 并 再 后 移 10 个 字符 。from_what 值 为 0 时 表示 文件 
的 开始 ， 它 也 可 以 省 略 ， 默 认 是 0 即 文件 开头 。 


【 例 4-19】 文本 文件 testl.txt 中 存放 的 内 容 为 “智能 医学 ”， 通 过 指针 定位 ， 读 取 字 符 


串 “ 医 学 ”。 程 序 代码 如 下 : 


£f = open("test1l.txt",，"r") 二 打开 testl.txt 文 本 文件 
f.seek(4,0) # 定 位 指针 ， 从 起 始 位 置 0 开始 ， 偏 移 量 为 4 第 
print (f.readline()) 


性 


章 
感 碧 、 磅 杂 与 艾 们 


二 级 Python 和 须 杖 兹 现 


程序 运行 结果 如 下 : 
医学 


本 章 小 结 


本 章 主 要 介绍 了 函数 、 模 块 和 文件 的 使 用 方法 。 通 过 本 章 的 学 习 ， 读 者 能 够 对 重用 代 
码 的 编写 有 一 定 的 了 解 和 掌握 ， 当 一 个 函数 或 模块 编写 完毕 ， 就 可 以 被 其 他 文件 引用 。 用 
户 在 编写 程序 的 时 候 ， 要 学 会 有 逻辑 地 组 织 代码 、 分 配 代码 段 ， 使 代码 更 好 用 、 更 易 懂 。 


第 5 章 面向 对 象 程序 设计 


导 学 

面向 对 象 程序 设计 ( Object Oriented Programming，OOP ) 是 一 种 将 数据 和 对 数据 的 操 
作 封 装 成 为 “对 象 ” 来 处 理 的 程序 设计 方法 。 这 种 设计 思想 使 得 软件 设计 更 加 灵活 ， 提 高 
了 代码 的 可 读 性 和 可 扩展 性 。OOP 可 以 在 对 象 的 基础 上 进行 再 抽象 ,根据 不 同 对 象 之 间 的 
共同 特征 进行 分 类 、 抽 象 ， 形 成 类 。OOP 的 关键 就 在 于 如 何 合 理 地 定义 和 组 织 类 以 及 类 与 
类 之 间 的 关系 。 

了 解 : 面向 对 象 的 程序 设计 思想 。 

掌握 : 对 象 、 类 的 概念 ; 面向 对 象 程序 设计 的 封装 、 继 承 和 多 态 。 

前 面 的 章节 介绍 了 数据 、 列 表 、 元 组 、 字 典 和 序列 等 内 容 。 本 章 将 主要 介绍 Python 中 
另 一 个 非常 核心 的 概念 ， 即 对 象 。 和 C++、Java 等 其 他 语言 一 样 ，Python 被 称 为 面向 对 象 
的 语言 。 在 对 象 之 上 ， 可 以 抽象 出 类 的 概念 ， 类 具有 封装 性 、 继 承 性 和 多 态 性 。 


5.1 面向 对 象 程序 设计 基础 


S.1.1 面向 对 象 程序 设计 的 基本 概念 


1. 对 象 

对 象 (Object) 是 面向 对 象 程序 设计 的 核心 ， 也 是 程序 的 主要 组 成 部 分 。 在 面向 对 象 
的 程序 设计 方法 里 ， 一 个 程序 就 可 以 看 成 是 一 组 对 象 的 集合 。 

在 现实 世界 里 ， 我 们 可 以 广义 地 认为 ， 对 象 就 是 客观 世界 里 存在 着 的 任何 事物 。 它 可 
以 是 有 生命 的 ， 也 可 以 是 无 生命 的 ; 可 以 是 具体 的 ， 也 可 以 是 抽象 的 。 比 如 我 们 每 一 个 人 、 
我 们 身边 的 花草 树木 、 桌 椅 板 命 ， 都 可 以 称 为 一 个 对 象 。 任 何 对 象 都 不 仅 包含 它 本 身 ， 同 
时 也 包含 其 所 具有 的 特性 和 行为 。 

在 面向 对 象 的 程序 设计 思想 中 ， 对 象 可 以 被 看 成 是 数据 以 及 其 具有 的 属性 和 存 取 、 操 
作 该 数据 的 方法 所 构成 的 集合 。 所 以 ， 在 这 种 设计 方法 中 ， 只 要 将 程序 中 包含 的 每 一 个 对 
象 设计 完成 ， 也 就 完成 了 整个 程序 的 设计 。 

2. :类 

类 《〈Class) 是 同一 类 型 对 象 ， 也 就 是 具有 相似 行为 对 象 的 集合 和 抽象 。 在 面向 对 象 程 
序 设 计 中 ， 对 象 是 程序 的 基本 单位 ， 是 一 种 复合 的 数据 类 型 ， 是 程序 的 基本 要 素 。 而 类 是 
将 具有 相同 状态 、 行 为 和 访问 机 制 的 多 个 对 象 抽象 形成 一 个 整体 。 在 定义 了 一 个 类 之 后 ， 
符合 类 特点 的 对 象 称 为 类 实例 或 类 对 象 。 类 代表 一 般 ， 而 类 中 的 一 个 对 象 代表 具体 。 例 如 ， 
如 果 将 每 一 个 人 作为 一 个 个 体 看 成 是 一 个 对 象 ， 那 么 一 类 人 和 群 就 可 以 称 为 一 个 “类 ” 比如 
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男人 是 一 类 、 女 人 是 一 类 。 

其 实 ， 不 必 将 类 的 概念 想象 得 那么 复杂 难以 理解 ， 我 们 可 以 把 类 简单 地 理解 为 类 型 ， 
即 数据 类 型 。 就 像 Python 等 语言 允许 用 户 创建 除 自 带 函数 之 外 的 自 定义 函数 一 样 ，Python 
也 允许 用 户 创建 自 定义 的 满足 特殊 条 件 的 数据 类 型 , 就 和 Python 定义 好 的 string、list、dict 
等 数据 类 型 一 样 ， 没 什么 区 别 。 

3. 消息 和 方法 

消息 (Message) 就 是 用 来 请 求 对 象 执行 某 一 处 理 或 是 回答 某 些 信息 的 要 求 。 当 对 某 
一 对 象 进行 相应 处 理 时 ， 如 果 需 要 ， 可 以 通过 传递 消息 ， 请 求 其 他 对 象 完成 相应 处 理工 作 
或 者 回答 相应 消息 。 其 他 对 象 在 执行 所 要 求 的 处 理 时 ， 也 可 以 通过 传递 消息 与 别 的 对 象 联 
系 。 因 此 ， 程 序 的 执行 其 实 是 靠 对 象 间 消息 的 传递 来 实现 的 。 消 息 的 传送 方 称 为 发 送 者 ， 
消息 的 接收 方 称 为 接收 者 。 

方法 (Method) 是 类 的 行为 和 属性 的 总 称 ， 是 允许 作用 在 对 象 上 的 所 有 操作 。 因 此 ， 
对 数据 进行 处 理 就 是 通过 类 所 具有 的 方法 使 用 消息 传递 来 实现 的 。 


S.1.2 面向 对 象 程序 设计 的 基本 特性 


面向 对 象 程序 设计 是 一 种 计算 机 编程 架构 。 根 据 前 面 对 对 象 、 类 等 概念 的 介绍 ， 可 以 
理解 面向 对 象 程序 设计 方法 具有 以 下 3 个 基本 特性 。 

1. 封装 性 (Encapsulation) 

封装 性 就 是 将 数据 和 数据 的 属性 及 对 其 可 能 进行 的 操作 集合 起 来 ， 形 成 一 个 整体 ， 即 
对 象 。 用 户 不 必 知 道 对 象 行为 的 实现 细节 ， 只 需 根据 对 象 提供 的 外 部 特性 接口 对 对 象 进行 
访问 。 这 样 ， 就 可 以 实现 将 对 象 的 用 户 和 设计 者 分 开 ， 用 户 在 使 用 对 象 时 ， 不 必 知 道 对 象 
行为 的 细节 ， 只 需 调 用 设计 者 提供 的 协议 命令 就 可 以 了 。 

另 一 方面 ， 面 向 对 象 方法 的 封装 性 有 效 地 使 对 象 以 外 的 事物 不 能 随意 获取 对 象 的 内 部 
属性 〈 公 有 属性 除外 )， 避 免 了 外 部 错误 对 其 产生 的 影响 , 大 幅 减少 软件 开发 过 程 中 查 错 的 
工作 量 ， 降 低 排 错 难度 ， 同 时 隐蔽 了 程序 设计 的 复杂 性 ， 提 高 了 代码 的 重用 性 。 

2. 继承 性 (Inheritance) 

提 到 继承 性 ， 就 要 先 给 出 两 个 在 类 的 继承 过 程 中 出 现 的 新 概念 : 父 类 〈 基 类 ) 和 子 类 
(派生 类 )。 父 类 和 子 类 是 相对 而 言 的 ， 如 果 我 们 将 已 定义 好 的 一 个 类 称 为 父 类 ， 则 从 这 个 
类 派生 出 来 的 类 就 被 称 为 这 个 类 的 子 类 。 子 类 可 以 继承 父 类 的 所 有 属性 。 这 种 从 父 类 派生 
出 子 类 的 现象 称 为 类 的 继承 机 制 ， 也 就 是 继承 性 。 

子 类 因为 继承 了 父 类 的 属性 ， 所 以 在 使 用 时 无 须 重新 定义 父 类 中 已 经 定义 好 的 属性 和 
行为 ， 而 是 自动 地 拥有 其 父 类 的 全 部 属性 和 行为 。 

3. 多 态 性 (Polymorphism) 

面向 对 象 程序 设计 的 多 态 性 是 指 子 类 在 继承 了 父 类 中 定义 的 属性 或 行为 的 基础 上 ， 可 
以 再 定义 出 其 他 个 性 化 的 属性 或 行为 。 

Python 完全 采用 了 OOP 的 思想 ， 是 真正 面向 对 象 的 高 级 动态 编程 语言 ， 完 全 支持 面 
向 对 象 诸如 封装 、 继 承 、 多 态 以 及 派生 类 对 基 类 方法 的 覆盖 和 重 写 等 基本 功能 。 

与 其 他 面向 对 象 程序 设计 语言 不 同 的 是 ，Python 中 对 象 的 概念 更 加 宽泛 。 在 Python 


中 ， 一 切 内 容 都 可 以 称 为 对 象 ， 包 括 字 符 串 、 列 表 、 字 典 和 元 组 等 内 置 数据 类 型 都 具有 和 
类 完全 相似 的 语法 和 用 法 。 


S.2 类 与 对 象 


S.2.1 定义 类 和 对 象 


在 Python 中 ， 对 象 是 类 的 实例 ， 是 由 类 创建 的 。 所 以 在 定义 一 个 对 象 时 ， 应 该 首先 存 
在 一 个 类 。 下 面 ， 我 们 就 来 分 别 定义 类 和 对 象 。 

1， 定义 类 

创建 类 时 ， 对 象 的 属性 用 变量 形式 表现 ， 称 为 数据 成 员 或 成 员 变量 ， 对 象 的 行为 用 函 
数 形式 表示 ， 称 为 成 员 函 数 或 成 员 方法 。 成 员 变 量 和 成 员 方 法 统称 为 类 的 成 员 。 

Python 使 用 class 关键 字 来 定义 类 ，class 关键 字 之 后 是 一 个 空格 ， 后 面 跟 类 的 名 字 ， 
然后 是 一 个 冒号 ， 最 后 换行 并 定义 类 的 内 部 实现 方法 。 注 意 ,， 类 名 的 首 字母 一 般 需 要 大 写 ， 
虽然 也 可 以 按照 自己 的 习惯 风格 来 定义 类 名 ， 但 是 一 般 还 是 推荐 参考 惯例 来 命名 ， 并 在 整 
个 系统 的 设计 和 实现 中 保持 风格 的 一 致 ， 以 此 增强 程序 的 可 读 性 ， 也 有 利于 团队 合作 。 

下 面 给 出 定义 类 的 最 简单 的 格式 : 

class 类 名 : 


属性 (成员 变量 ) 
属性 


成 员 函 数 〈 成 员 方法 ) 


【 例 $-1】 定义 一 个 “学 校 ” 类 ， 取 名 为 CMU， 实 现 输出 字符 串 “Welcome to China 
Medical University!” 的 作用 。 程 序 代码 如 下 : 
class CMU: 
# 定 义 成 员 函 数 Welcome () 


def Welcome (self): 
print ("Welcome to China Medical University!") 


xm=CMU () # 定 义 类 对 象 xm 
xm.Welcome () # 通 过 类 对 象 调用 成 员 函 数 
程序 运行 结果 如 下 : 


Welcome to China Medical University! 


例题 5-1 在 CMU 类 中 定义 了 一 个 成 员 函 数 Welcome (selb， 目 的 用 于 输出 字符 串 
“Welcome to China Medical University!” 

需要 说 明 的 是 ,在 Python 中 ， 函 数 和 成 员 函 数 是 有 区 别 的 。 成 员 函 数 一 般 指 与 特定 实 
例 绑 定 的 函数 ， 当 用 户 通 过 对 象 调用 成 员 函 数 时 ,对象 本 身 将 作为 第 一 个 参数 被 传递 过 去 ， 
这 是 普通 函数 所 不 具备 的 特点 。 就 如 例题 5-1 中 成 员 函 数 Welcome (selb 中 的 参数 self 就 是 
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代表 类 对 象 本 身 的 参数 。 在 类 的 成 员 函 数 中 访问 实例 属性 时 ， 需 要 以 self 为 前 级 。 

2. 定义 对 象 

前 面 介绍 过 ， 类 就 是 数据 类 型 。 那 么 ， 面 向 对 象 程序 设计 方法 中 ， 在 类 下 声明 的 变量 
就 是 “类 对 和 象 ”“ 实 例 对 象 ”“ 对 和 象 ”“ 实 例 ”” 这 些 各 种 称呼 来 源 于 不 同 的 程序 设计 语言 ， 
其 中 “类 对 象 ” 和 “实例 对 象 ”比较 严格 些 ， 建 议 大 家 多 多 采用 。 
既然 对 象 是 类 的 实例 ， 那 么 接着 上 面 的 例子 ， 如 果 人 类 是 一 个 类 ， 那 么 某 个 具体 的 人 
就 是 一 个 对 象 。 在 定义 了 具体 的 对 象 之 后 ， 就 可 以 通过 使 用 “对 象 名 .成 员 ” 的 方式 来 访问 
其 中 的 数据 成 员 或 者 成 员 方法 。 

首先 给 出 Python 创建 对 象 的 语法 格式 : 


对 象 名 = 类 名 () 
在 例题 5-1 中 , 就 已 经 定义 了 一 个 CMU 类 的 对 象 xm, 并 通过 类 对 象 来 调用 成 员 函 数 ， 
具体 代码 如 下 : 
xm=CMU () # 定 义 类 对 象 xm 
xm.Welcome () # 通 过 类 对 象 调 用 成 员 函 数 
旦 序 运行 结果 如 下 : 


Welcome to China Medical University! 


5.2.2 ”构造 函数 


定义 类 时 ， 可 以 使 用 一 些 特殊 的 方法 ， 如 _ init 0 和 _new _0， 它 们 被 称 为 构造 函 
数 或 者 构造 器 。 这 里 ， 我 们 只 为 大 家 介绍 最 常用 的 构造 函数 “init_0。 首 先 ， 大 家 需要 注 
意 构 造 函 数 的 写法 ， 构 造 函 数 分 别 以 两 个 下 画 线 “_” 作 为 开头 和 结尾 。 

当 定 义 一 个 类 时 ， 系 统 会 自动 建立 一 个 没有 任何 操作 的 默认 的 _ init _0 方 法。 此 时 ， 
如 果 用 户 自 己 建立 了 一 个 新 的 特殊 的 _ init_() 方 法 ， 那 么 系统 给 出 的 默认 _ init_0 方 法 
将 被 用 户 自 定 义 的 _ init_() 方 法 所 覆盖 。 

实际 上 ， 调 用 类 时 ， 传 递 的 任何 参数 都 是 交 给 _ init 0 方法 的 ， 可 以 理解 为 创建 实例 
时 , 对 类 的 调用 实际 上 就 是 对 构造 器 方法 的 调用 。 通过 构造 器 调用 可 以 更 新 类 的 数据 属性 。 
具体 情况 可 以 在 例题 5-2 中 体现 出 来 。 

【 例 $-2】 使 用 构造 器 方法 _ init_0。 程 序 代码 如 下 : 


class my Class: 
x=100 
y=200 
# 使 用 构造 函数 为 类 定义 除 类 对 象 本 身 之 外 的 另外 两 个 参数 : a、b 
def init (Self,ab): 
SeLlf X=a 
self .y=b 
# 分 别 使 用 类 和 类 对 象 输出 参数 ， 体 会 两 者 的 区 别 


object test=my class (10,20) ## 定 义 类 对 象 object test， 给 参数 a 和 传 值 
print (object test.x,object test.y) # 输 出 类 对 象 参数 x、Y 


print (my class.x,my class.y) # 输 出 类 参数 x、y 
my class.x=1 # 重 新 定义 类 参数 x 
my class.y=2 # 重 新 定义 类 参数 y 
print (my class.x,my class.y) # 输 出 类 参数 x、y 
程序 运行 结果 如 下 : 

10 20 

100 200 

:2 


5.2.3 ”实例 属性 和 类 属性 


属性 (成 员 变 量 ) 一 共有 两 种 : 一 种 是 实例 属性 ， 另 一 种 是 类 属性 (类 变量 )。 实 例 
属性 是 在 构造 函数 _ init 0 中 定义 的 ， 定 义 时 以 self 作为 前 级 ， 类 属性 是 在 类 中 方法 之 外 
定义 的 属性 。 在 主 程序 中 ， 也 就 是 在 类 的 外 部 ， 实 例 属性 属于 实例 对象)， 只 能 通过 对 象 
名 访问 ; 类 属性 属于 类 ， 可 以 通过 类 名 访问 ， 也 可 以 通过 对 象 名 访问 ， 为 类 的 所 有 实例 

class 类 名 : 


属性 (成员 变量 ) 
属性 


成 员 函 数 〈 成 员 方法 ) 


【 例 5-3】 定义 一 个 含有 实例 属性 (课程 名 kcm、 学 时 xs) 和 类 属性 〈 学 科 总 数 num) 
的 Course“ 课程” 类。 程序 代码 如 下 : 


class COourse: 


num=0 # 成 员 变量 (属性 ) 
def init (self,s,n): # 构 造 函 数 ， 定 义 两 个 参数 s、n 
self.kcm=s # 定 义 实例 属性 self .kcm， 并 将 参数 s 的 值 赋予 它 
self .xs=n # 定 义 实例 属性 self .xs， 并 将 参数 n 的 值 赋予 它 
def PrintName (self): ## 定 义 成 员 函 数 ， 用 以 输出 课程 名 和 学 时 
print (" 课 程 名 : ", self.kcm, "学 时 : ", self.xs) 
def PrintNum(self) : ## 定 义 成 员 函 数 ， 用 以 统计 输出 学 科 总 数 


Course.num=Course .num+1 
print (Course.num) 


# 主 程序 

P1=Course (" 人 工 智能 ",48) ## 定 义 类 实例 Pl 
P2=Course (" 医 学 大 数据 ",36) ## 定 义 类 实例 P2 
P1.PrintName () # 通 过 类 实例 调用 成 员 函 数 


面向 对 槛 竹 唐 砍 矿 
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P2.PrintName () ## 通 过 类 实例 调用 成 员 函 数 

P1.PrintNum() # 通 过 类 实例 调用 成 员 函 数 

P2.PrintNum() # 通 过 类 实例 调用 成 员 函 数 
程序 运行 结果 如 下 : 


课程 名 : 人 工 智 能 学 时 : 48 
课程 名 : ”医学 大 数据 学 时 : 36 
. 
六 


S.3 ”类 的 继承 与 多 态 


前 面 介 绍 过 ，Python 作为 面向 对 象 的 程序 设计 语言 具有 继承 性 。 继 承 性 体现 在 父 类 和 
子 类 之 间 、 类 和 对 象 之 间 。Python 中 ， 子 类 在 继承 父 类 的 时 候 还 满足 多 态 性 。 这 一 节 将 主 
要 介绍 如 何在 代码 中 体现 出 类 的 继承 性 和 多 态 性 。 


S.3.1 类 的 继承 


继承 是 为 了 代码 复 用 和 设计 复 用 而 设计 的 ， 是 面向 对 象 程序 设计 的 重要 特性 之 一 。 当 
设计 一 个 新 类 时 ， 如 果 可 以 继承 另 一 个 已 有 的 设计 良好 的 且 特 性 相似 的 类 ， 然 后 进行 二 次 
开发 ， 这 无 疑 会 大 幅 地 减少 程序 开发 的 工作 量 ， 提 高 设计 效率 。 

类 的 继承 的 语法 规则 如 下 : 

class 子 类 名 ( 父 类 名 ): 

子 类 成 员 
【 例 S$-4】 设计 Person 类 ,根据 Person 派生 Student 类 ,并 分 别 创建 Person 类 和 Student 
类 的 对 象 。 程 序 代码 如 下 : 


# 定 义 父 类 : Person 类 


class Person: # 创 建 类 Person 
def init _ (self,name=' ',age=20,sex=" Os 
self.setName (name) # 通 过 self 调用 成 员 函 数 , 并 传递 参数 
self.setAge (age) # 通 过 self 调用 成 员 函 数 , 并 传递 参数 
self.setSex(sex) # 通 过 self 调用 成 员 函 数 , 并 传递 参数 
def setName (self,name) : ## 定 义 成 员 函 数 
if type (name) !=str: # 内 置 函数 type () 返回 被 测 对 象 的 数据 类 型 
print ( "姓名 必须 是 字符 串 ! ' ) 
return 
self. name=name # 变 量 符合 类 型 要 求 , 则 赋值 
def setAge (self,age) : # 定 义 成 员 函 数 
if type (age) !=int: # 内 置 函数 type () 返回 被 测 对 象 的 数据 类 型 


print (' 年 龄 必须 是 整 型 ! ' ) 


return 


self. age=age # 变 量 符合 类 型 要 求 , 则 赋值 
def setsex(self, sex): # 定 义 成 员 函 数 
if sex!=' 男 ' and sex!=' 女 ':  # 内 置 函 数 type() 返回 被 测 对 象 的 数据 类 型 
print (' 请 输入 正确 的 性 别 ( 男 或 女 )! ') 


return 
Self. sex=sex # 变 量 符合 类 型 要 求 , 则 赋值 
def show(self) : # 定 义 成 员 函 数 ， 用 来 输出 对 象 属性 


print (' 姓 名 : ' ,self. name, ' 年 龄 ; ' ,self. age， ' 性 别 : ', self. sex) 


# 定 义 子 类 (student 类 )， 其 中 增加 一 个 私有 属性 (学 号 ) 
class Student (Person): 
# 定 义 子 类 构造 函数 ， 增 加 私有 属性 studentID 
def init (self,name='',age=20,sex='man',studentID="'20180101°'): 
井 在 子 类 中 调用 父 类 构造 函数 ， 并 初始 化 父 类 私有 数据 成 员 
Person. init (self,name,age, sex) 
# 通 过 self 调用 成 员 函 数 ， 并 传递 参数 
self.setStudentID (studentID) 
def setStudentID (self, studentID) : 
self. studentID=studentID 
def show(self) : 
Person.show(self) 
Print (' 学 号 : ' vself. studentID) 
# 主 程序 
linan=Person(' 李 楠 ', 19, ' 男 ') 
linan.show() 
zhaoxiang=Student (' 赵 想 ' ,21, ' 男 ', '20180333') 
zhaoxiang.show () 


zhaoxiang.setAge (20) # 通 过 父 类 成 员 函 数 更 新 实例 属性 


Zhaoxiang.show() 
程序 运行 结果 如 下 : 


姓名 : 李楠 年 龄 : 19 性 别 : 男 
姓名 : 赵 想 年 龄 : 21 性 别 : 男 
学 号 : 20180333 
姓名 : 赵 想 年 龄 : 20 性 别 : 男 
学 号 : 20180333 


5.3.2 类 的 多 继承 


Python 的 类 可 以 继承 多 个 父 类 。 书 写 时 将 被 继承 的 父 类 列表 写 在 子 类 名 后 面 ， 具 体 规 
则 如 下 : 


class SubClassName (ParentClassl{, ParentClass2, ParentClass3, ..}): 


子 类 成 员 
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例如 ， 定 义 C 类 同时 继承 A、B 两 个 基 类 ， 写 法 如 下 : 


class A: 砷 定义 类 六 
class B: # 定 义 类 也 
class C (A,B) : # 定 义 子 类 Cc， 继承 父 类 和 A 和 B 


5.3.3 类 的 多 态 


多 态 ， 即 多 种 数据 类 型 ， 也 就 是 说 对 象 可 以 满足 不 止 一 种 数据 类 型 。 在 这 里 先 介绍 一 
个 用 来 测试 变量 类 型 的 函数 isinstance0。 判断 一 个 变量 是 否 是 某 个 类 型 , 可 以 用 isinstance() 
函数 ， 书 写 的 基本 格式 如 下 : 


isinstance (object，class) 


isinstance(object，class) 是 布尔 函数 ， 返 回 值 为 布尔 值 True 或 布尔 值 False， 当 object 
是 class 类 或 class 子 类 的 实例 对 象 时 ， 返 回 值 就 为 True。 
【 例 $S-$】 类 的 多 态 ， 用 函数 isinstance() 测 试 变 量 的 类 型 ， 程 序 代码 如 下 : 


class Animal: # 定 义 父 类 Animal 
def run(self) : 
print ("Animal is running*…") 
class Cat (Animal): # 定 义 子 类 Cat 
def run(self) : 
print ("Cat is Frunning…m) 
class Dog (Animal): # 定 义 子 类 Dog 
def run(self) : 
print ("Dog is running…") 


a=Animal () # 定 义 父 类 Animal 的 实例 对 象 a 

b=Cat () # 定 义 子 类 Cat 的 实例 对 象 b 

c=Dog () # 定 义 子 类 Dog 的 实例 对 象 c 

print (isinstance (a, Animal)) # 判 断 a 是 否 为 父 类 Animal 的 实例 对 象 

print (isinstance (b, Cat)) # 判 断 b 是 否 为 子 类 cat 的 实例 对 象 

print (isinstance (c, Dog)) # 判 断 c 是 否 为 子 类 Dog 的 实例 对 象 

print (isinstance (c, Animal)) # 判 断 c 是 否 为 父 类 Animal 的 实例 对 象 

print (isinstance (a, Dog)) # 判 断 a 是 否 为 子 类 Dog 的 实例 对 象 
程序 运行 结果 如 下 : 

True 

Te 

True 

Trus 


False 


从 例 5-5 可 以 看 到 ， 类 Dog 是 类 Animal 的 子 类 ， 所 以 对 象 c 作为 类 Dog 的 实例 ， 既 
具有 Dog 的 数据 类 型 ， 同 时 也 具有 Animal 的 数据 类 型 。 因 为 类 Dog 本 身 就 继承 了 父 类 
Animal 的 属性 ， 反 之 则 不 然 。 


本 章 介绍 了 面向 对 象 程序 设计 的 基本 概念 ， Python 中 创建 类 和 对 象 的 语法 规则 ， 实 例 
属性 和 类 属性 ;类 的 继承 、 多 继承 和 多 态 。 

在 这 一 章 中 ， 读 者 应 该 重点 掌握 对 象 和 类 的 概念 以 及 面向 对 象 程序 设计 方法 的 三 个 主 
要 特征 ， 即 封装 性 、 继 承 性 和 多 态 性 。 

值得 注意 的 是 ，Python 中 ， 存 在 着 一 些 与 其 他 程序 设计 语言 比较 明显 的 不 同 。 其 中 最 
为 重要 的 是 : 在 其 他 面向 对 象 程序 设计 语言 中 ， 类 是 没有 属性 的 ， 而 在 Python 中 ， 类 和 对 
象 一 样 ， 也 是 具有 属性 的 。 

另外 ， 面 向 对 象 程序 设计 方法 与 面向 过 程 程序 设计 方法 存在 较 大 区 别 ， 需 要 读者 在 不 
断 的 学 习 实 践 中 慢 慢 体会 。 
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导 学 

图 形 界面 ( Graphical User Interface， 简 称 GUI， 又 称 图 形 用 户 接口 ) 是 Python 建立 应 
用 程序 的 主要 工具 之 一 。 通过 图 形 界 面 可 以 设计 出 带 有 标签 、 按 钮 、 文本 框 等 组 件 的 界面 。 
本 章 以 Tkinter 为 例 进行 介绍 ， 要 求学 生 学 会 图 形 界面 设计 的 方法 ， 同 时 掌握 Python 完整 
的 知识 体系 结构 ， 增 强 逻辑 思维 。 

了 解 : Python 常用 图 形 开发 库 、 图 形 绘制 、Python 事件 处 理 。 

掌握 : Python 常用 的 组 件 的 应 用 。 

目前 为 止 ， Python 输入 输出 涉及 的 都 是 简单 的 文本 形式 ， 但 是 实际 应 用 中 用 户 要 处 理 
大 量 的 图 形 界面 ， 因 此 ， 本 章 以 Tkinter 为 例 学 习 如 何 设计 图 形 用 户 界面 。 


6.1 Python 图 形 开发 库 


6.1.1 开发 平台 


平台 是 图 形 组 件 的 一 个 特定 集合 ， 在 编写 Python 前 ， 首 先 要 确定 使 用 哪个 GUI 平台。 
支持 Python 的 图 像 开发 库 有 很 多 ， 并 且 这 些 库 之 间 并 没有 冲突 。 因 此 ， 用 户 可 以 从 中 选择 
适合 自己 需求 的 GUI 库 。 比 较 流 行 的 GUI 开发 库 如 表 6-1 所 示 。 


表 6-1 支持 Python 的 常用 GUI 库 
GUI 库 描述 网 站 
Tkinter 路 平台， 方便 稳定 ， 可 移植 性 好 http://wiki.python.org/moin/Tkinter 
wxpython ”基于 wxWindows， 跨 平台 越 来 越 流 行 http://wxpython.org 
PythonWin ”只 能 在 Windows 上 使 用 。 使 用 了 本 机 的 ”http://starship.python.net/crew/mhammond 


WindowsGUI 功能 
JavaSwing ”只 能 用 于 Jython， 使 用 本 机 的 JavaGUI http://java.sun.com/docs/books/tutorial/uiswing 
PyGTK 使 用 GTK 平台 ， 在 Linux 上 很 流行 http://pygtk.org 
PyQt 使 用 Qt 平台 ， 跨 平台 http://wiki.python.org/moin/PyQt 


本 章 使 用 的 是 Tkinter 库 ， 该 库 是 Python 标准 的 GUI 工具 包 接口 。Tkinter 可 以 运行 在 
大 多 数 的 Unix 平台 、Windows 和 Mac 系统 中 ， 跨 平台 性 能 较 好 ， 便 于 移植 。Tk8.0 的 后 续 
版 本 可 以 实现 本 地 窗口 风格 ， 并 良好 地 运行 在 绝 大 多 数 平台 中 。 
由 于 Tkinter 是 内 置 到 Python 的 安装 包 , 只 要 安装 Python 后 就 能 直接 导入 Tkinter 库 。 
需要 强调 的 是 ，Python3.x 版 本 使 用 的 库 名 为 tkinter， 即 首 字 母 T 为 小 写 。 因 此 当 导 入 模 
块 时 ， 需 要 写成 Import tkinter。 


6.1.2 创建 Windows 窗口 
【 例 6-1】 创建 第 一 个 Windows 窗口 的 GUI 程序。 程序 代码 如 下 : 


# 第 一 个 GUI 程序 

import tkinter # 导 入 Tkinter 模块 
win = tkinter.Tk() # 创 建 Windows 窗口 对 象 
win.title(' 第 一 个 图 形 界面 设计 程序 ' ) # 设 置 窗口 显示 的 标题 
win.mainloop() # 显 示 窗 口 


运行 结果 如 图 6-1 所 示 。 
1 委 一 个 图 形 界面 设计 程序 ”El 


图 6-1 Tkinter 创建 的 第 一 个 GUI 程序 


Tk0 方 法 是 创建 一 个 普通 的 窗口 ， 在 创建 组 件 前 必须 创建 这 个 根 窗口 ， 然 后 在 根 窗口 
基础 上 创建 其 他 组 件 。 当 导入 tkinter 模块 语句 是 “import tkinter” 时 ， 创 建 窗 口 就 必须 加 
上 tkinter 类 名 ， 如 程序 中 的 win=tkinter.Tk()。 如 果 导 入 语句 是 “from tkinter import *”， 则 
创建 根 窗口 就 是 win=TkO， 可 以 不 用 写 类 的 名 字 。 创 建 其 他 组 件 也 遵循 这 个 原则 。 
mainloop() 函 数 主要 是 用 来 显示 窗口 。 可 以 理解 为 整个 程序 的 主 循环 , 程序 不 断 地 在 刷 
新 ， 等 待 用 户 的 消息 事件 发 生 ， 然 后 刷新 窗口 ， 显 示 窗 口 最 新 的 状态 。 当 前 程序 一 直 处 于 
事件 循环 之 中 ， 直 到 关闭 这 个 窗口 。 

Windows 窗口 创建 后 ， 可 以 通过 geometry() 方 法 来 设置 宽度 和 高 度 ， 重 新 调整 窗口 大 
小 。 方 法 中 的 宽度 和 高 度 都 是 字符 类 型 的 数据 。 具 体 语 法 如 下 : 


窗口 对 象 .geometry (宽度 X 高 度 ) 


注意 : x 不 是 来 号 ， 是 小 写字 母 x。 


当然 ， 也 可 以 设置 Windows 窗口 的 最 大 宽度 、 最 大 高 度 ， 以 及 最 小 宽度 和 最 小 高 度 。 
语法 如 下 : 


窗口 对 象 .maxsize (最 大 宽度 ， 最 大 高 度 ) 
窗口 对 象 .minsize (最 小 宽度 ， 最 小 高 度 ) 


将 例 6-1 中 窗口 初始 大 小 设置 为 800x600, 并 且 最 小 宽度 和 最 小 高 度 为 400x600, 最 大 
宽度 和 最 大 高 度 设置 为 1440x800。 有 具体 代码 如 下 : 


win.geometry('800X600') 
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win.minsize('400',"'600') 


win.maxsize('1440"','"'800"') 


6.2 ”Tkinter 常用 组 件 


6.2.1 Tkinter 组 件 


组 件 是 对 数据 和 方法 的 简单 封装 ， 组 件 可 以 有 自己 的 属性 和 方法 。Tkinter 提供 的 组 件 
有 标签 、 按 钮 和 文本 框 等 ， 组 件 有 时 也 称 为 控件 或 部 件 。 目 前 常用 的 Tkinter 组 件 如 表 6-2 


所 示 。 
表 6-2 常用 Tkinter 组 件 

组 件 名 称 描述 
Button 按钮 ， 在 程序 中 显示 按钮 
Canvas 画布 ， 显 示 图 形 元 素 如 线条 或 文本 
Checkbutton 多 选 框 ， 用 于 在 程序 中 提供 多 项 选择 框 
Entry 单行 文本 输入 ， 用 于 显示 简单 的 文本 内 容 
Frame 框架 ， 在 屏幕 上 显示 一 个 矩形 区 域 ， 多 用 来 作为 容器 
Label 标签 ， 可 以 显示 文本 和 位 图 
Listbox 列表 框 ， 在 Listbox 窗口 小 部 件 是 用 来 显示 一 个 字符 串 列 表 给 用 户 
Menubutton 菜单 按钮 ， 用 于 显示 菜单 项 
Menu 菜单 ， 显 示 菜 单 栏 、 下 拉 菜 单 和 弹出 菜单 
Message 消息 ， 用 来 显示 多 行文 本 ， 与 Label 比较 类 似 
Radiobutton 单 选 按钮 ， 显 示 一 个 单 选 的 按钮 状态 
Scale 范围 ， 显 示 一 个 数值 刻度 ， 为 输出 限定 范围 的 数字 区 间 
Scrollbar 滚动 条 ， 当 内 容 超过 可 视 化 区 域 时 使 用 ， 如 列表 杠 
Text 文本 ， 用 于 显示 多 行文 本 
Toplevel 容器 ， 用 来 提供 一 个 单独 的 对 话 框 ， 和 Frame 比较 类 似 
LabelFrame LabelFrame 是 一 个 简单 的 容器 控件 ， 常 用 于 复杂 的 窗口 布局 
MessageBox 用 于 显示 应 用 程序 的 消息 框 

Tkinter 的 所 有 组 件 都 具备 标准 属性 〈 即 共有 属性 )， 如 字体 、 大 小 和 颜色 等 。 常 用 的 


组 件 的 标准 属性 如 表 6-3 所 示 。 
表 6-3 常用 组 件 的 标准 属性 


属性 描述 

dimension 组 件 大 小 

color 组 件 颜色 

font 组 件 字 体 

anchor 锚 点 ， 内 容 放置 的 位 置 
relief 组 件 样式 

bitmap 位 图 

cursor 光标 

text 显示 文本 内 容 


state 设置 组 件 状态 ， 正 常 、 激 活 、 禁 用 


anchor 属性 是 指 内 容 停靠 的 位 置 ， 具 体 对 应 东南 西北 以 及 四 个 角 。anchor 可 用 值 有 以 
下 几 个 : e，w，n，s，ne，se，sW，nw，center。e: 垂直 居中 ， 水 平 居 右 ， w: 垂直 居中 ， 
水 平 居 左 ; n: 垂直 居 上 ， 水 平 居中 ; s: 垂直 居 下 ， 水 平 居中 ; ne: 垂直 居 上 ， 水 平 居 右 ; 
se: 垂直 居 下 ， 水 平 居 右 ; sw: 垂直 居 下 ， 水 平 居 左 ; nw: 垂直 居 上 ， 水 平 居 左 center 
(默认 值 ): 垂直 居中 ， 水 平 居 中 。 

anchor 地 理 方位 图 如 图 6-2 所 示 。 


center e 


图 6-2 ”anchor 地 理 方位 


Tkinter 组 件 有 特定 的 几何 布局 管理 器 (Geometry Manager)， 几 何 布局 管理 器 主要 作 
用 就 是 管理 和 组 织 父 组 件 (一 般 为 窗口 ) 中 的 子 组 件 的 布局 方式 。Tkinter 提供 了 3 种 不 同 
的 几何 布局 管理 器 ， 即 pack、grid 和 place。 

1. pack 

pack 几何 布局 管理 采用 块 的 方式 组 织 组 件 。 调 用 子 组 件 的 方法 为 pack(): 

pack (option=value, ...) 

若 不 指定 pack0) 函 数 的 参数 ，pack 会 从 上 至 下 放置 组 件 。pack() 方 法 提供 的 参数 及 其 
取 值 如 表 6-4 所 示 。 

表 6-4 pack0 方 法 提供 的 参数 选项 


参数 描述 取 值 

side 停靠 在 父 组 件 哪 一 边 ‘top'、'buttom'、'left 、'right' 

anchorr 停靠 位 置 ， 对 应 于 东南 西北 及 四 角 ”nD'、's'、'e'、'W'、'nw'、'swW'、'se'、'ne'、'center'( 默 

认 值 ) 

fill 填充 空间 ‘x'、'y'、'both'、'none' 

expand 扩展 空间 0 或 1 

ipadx,ipady ”组 件 内 部 在 x/y 方向 上 填充 的 空间 ”单位 为 c (厘米)、m (毫米 )、i (英寸 )、p (打印 
大 小 机 的 点 ) 

padx,pady ”组 件 外 部 在 x/y 方向 上 填充 的 空间 ”单位 为 c (厘米 )、m (毫米 )、i (英寸 )、p (打印 
大 小 机 的 点 ) 

2，grid 


grid 几何 布局 管理 采用 表格 结构 组 织 组 件 。 调 用 子 组 件 的 方法 为 grid0: 
grid (option=value, ...) 


第 
子 组 件 的 位 置 由 行 和 列 确定 的 单元 格 决定 ， 可 以 跨越 多 行 多 列 。 每 一 列 中 的 列 宽 由 这 | 6 
章 


属 有 办 而 族 矿 


二 级 Python 须 逢 兹 击 


一 列 中 最 宽 的 单元 格 决定 。grid 几何 布局 管理 器 适合 于 表格 形式 的 布局 ， 可 以 实现 复杂 的 


界面 


即 第 


， 因 此 应 上 


比较 广泛 。 


grid 有 两 个 重要 的 参数 : row 和 column。 这 两 个 参数 用 来 指定 将 子 组 件 放置 到 什么 位 


0 列 。 


置 。 若 不 指定 row, 会 将 子 组 件 放置 到 第 一 个 可 用 的 行 上 ; 若 不 指定 column， 则 使 用 首 列 ， 


grid0 方 法 提供 的 参数 及 其 取 值 如 表 6-5 所 示 。 
表 6-5 grid( 方 法 提供 的 参数 选项 


参数 描述 取 值 

sticky 对 齐 方 式 D's'、'e'、'W、 nw、 'sw'、'se'、'ne'’、'center' 

IOW 单元 格 行 号 整数 ， 从 0 开始 算 起 

column 单元 格 列 号 整数 ， 从 0 开始 算 起 

rowspan 单元 格 横 跨 的 行 数 整数 ，rowspan=3 即 跨 三 行 

columnspan 单元 格 横 跨 的 列 数 整数 ，columnspan=2 即 跨 两 列 

ipadx,ipady 设置 组 件 里 面 xy 方向 空白 区 域 大 小 ”单位 为 c (厘米 )、m (毫米 )、i (英寸 )、p ( 打 

印 机 的 点 》 

padx.pady 设置 组 件 周围 x/y 方向 空白 区 域 保留 ”单位 为 ec (厘米 )、m (毫米 )、i (英寸 )、p ( 打 

大 小 印 机 的 点 ) 
3. place 


place 几何 布局 管理 允许 指定 组 件 的 大 小 与 位 置 。 调 用 子 组 件 的 方法 为 place(): 


Place (option=value, ...) 


place 的 优点 是 可 以 精确 控制 组 件 的 位 置 , 不 足 之 处 是 改变 窗口 大 小 时 , 子 组 件 不 能 随 
之 灵活 改变 大 小 。place 方法 提供 的 参数 及 其 取 值 如 表 6-6 所 示 。 
表 6-6 ”grid0 方 法 提供 的 参数 选项 


参数 描述 

anchor 对 齐 方 式 

XYy 定义 本 组 件 左 上 角 在 父 组 件 中 的 绝对 
位 置 坐标 ， 父 组 件 的 左上 角 坐 标 为 
(0,0)。 单 位 为 像素 

relx,rely 定义 本 组 件 左上 角 在 父 组 件 中 的 相对 
位 置 比例 。 例 如 relx=0.5 表示 从 父 组 
件 x 方 向 上 1/2 开始 布局 

height,width ”高 度 和 宽度 ， 单 位 为 像素 

6.2.2 标签 


标签 (Label) 用 于 在 窗口 中 显示 文本 或 者 位 图 信息 ， 常 用 的 


取 值 


mn、's'、'e'、 
(默认 值 ) 
从 0 开始 的 整数 


'W'、'nW'、'sw'、'se'、'ne'’、'center' 


取 值 范围 为 0 一 1.0 


属性 如 表 6-7 所 示 。 


表 6-7 Label 组 件 常用 属性 


属性 说 明 

anchor 对 齐 方式 , 对 应 于 东南 西北 以 及 四 个 角 。 可 用 值 有 '、's'、'e'、'w'、 "nw'、'sw'、'se'、 
me'、'center (默认 值 ) 

width 宽度 

height 高 度 

compound 指定 文本 与 图 像 如 何在 Label 上 显示 ， 默 认为 none。 当 指定 image/bitmap 时 , 文 
本 将 被 覆盖 ， 只 显示 图 像 。 可 用 值 有 left、right、top、bottom、center 

wraplength 指定 多 少 单位 后 开始 换行 ， 用 于 显示 多 行文 本 

justify 指定 多 行 的 对 齐 方式 ， 可 以 使 用 的 值 为 LEFT 或 RIGHT 

image 和 bm 显示 自 定义 图 片 如 .png，.gif 

bitmap 显示 内 置 的 位 图 


在 Tkinter 创建 好 的 窗口 中 创建 组 件 时 ， 需 要 调用 指定 组 件 的 构造 函数 。 如 创建 标签 组 
件 的 格式 如 下 : 


Label (窗口 对 象 ，Label 属性 ) 


Label0 函 数 的 第 一 个 参数 为 窗口 对 象 名 称 ， 是 指 在 哪个 窗口 上 创建 的 组 件 ， 后 面 的 参 
数 是 该 组 件 的 相应 属性 ， 可 以 根据 需要 设置 。 因 此 ， 其 他 组 件 的 创建 方法 与 之 类 似 。 

【 例 6-2】 标签 组 件 的 应 用 。 窗 口 标题 为 “测试 label 组 件 ” 在 窗口 中 建立 三 个 标签 
组 件 : labl 显示 文本 “智能 医学 专 委 会 ” lab2 显示 系统 内 置 位 图 “hourglass”，lab3 显示 
自选 图 片 “ 智 能 医学 专 委 会 .png”。 程 序 代 码 如 下 : 


# 将 tkinter 模块 所 有 的 类 、 函 数 等 导入 到 当前 程序 中 

from tkinter import * 

win = Tk() # 创 建 一 个 窗口 
win.title ("测试 label 组 件 ") # 给 窗口 命名 

# 创 建 第 一 个 标签 lab1， 标 签 显示 文本 “智能 医学 专 委 会 ” 
labl=Label (win, text = ' 智 能 医学 专 委 会 ') 


labl.pack (anchor = 'nw') # 显 示 标 签 组 件 
lab2=Label (win,bitmap ='hourglass' ) # 创 建 第 二 个 标签 1ab2 
lab2 .pack () 

bm = PhotoImage (file = r'E:\python 练习 \ 智 能 医学 专 委 会 .png') 
lab3 = Label (win, image=bm) 砷 创建 第 三 个 标签 lab3 
lab3.pack() 

win.mainloop() # 进 入 消息 循环 ， 显 示 窗 口 


pack() 方 法 可 以 告知 label 组 件 调整 自己 的 尺寸 来 适应 具体 文本 的 大 小 。PhotoImage 函 
数 打 开 文件 时 ,file 路 径 前 的 rt 代表 后 面 遇 到 的 “\” 不 要 进行 转 义 ,而 是 原样 输出 。“hourglass” 
是 系统 内 置 的 位 图 , 系统 内 置 的 位 图 还 有 以 下 几 个 : error、 gray75、gray50、gray25、gray12、 
info、questhead、hourglass、question 和 waming。 程 序 运 行 如 图 6-3 所 示 。 
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6.2.3 ”按钮 


ee = EE 
智能 医学 专 委 会 
为 


中 国医 药 教育 协会 智能 医学 专业 委员 会 


Intelligent Medicine Committee，China Medicine Education Association 


图 6-3 标签 组 件 应 用 举例 


按钮 (Button) 用 于 实现 各 种 按钮 。 按钮 上 可 以 显示 文本 和 图 像 , 也 可 以 通过 command 
属性 将 Python 函数 或 方法 关联 到 按钮 上 。 当 该 按钮 被 激活 时 ， 就 可 以 自动 调用 该 函数 或 方 
法 。 常 用 的 属性 如 表 6-8 所 示 。 


表 6-8 Button 组 件 常 用 属性 


属性 说 明 

anchor 对 齐 方 式 , 对 应 于 东南 上 是 北 以 及 四 个 角 。 可 用 值 有 nh'、's'、'e'、'w'、'hw'、'sw'、'se'、 
me'、'center (默认 值 ) 

width 设置 显示 宽度 ， 如 未 设置 此 项 ， 其 大 小 适应 内 容 标签 

height 设置 显示 高 度 ， 如 未 设置 此 项 ， 其 大 小 适应 内 容 标签 

compound 指定 文本 与 图 像 的 位 置 关系 

text 显示 文本 内 容 

bg 设置 背景 颜色 

fe 设置 前 景色 

bitmap 指定 位 图 

command 指定 Button 的 事件 处 理 函 数 

focus_set 设置 当前 组 件 得 到 焦点 

master 代表 父 窗口 

Telief 指定 外 观 装饰 边界 附近 的 标签 , 可 设置 参数 : FLAT、GROOVE、 RAISED、 RIDGE、 
SOLID、SUNKEN 

state 组 件 状态 : 正常 (normal)、 激 活 (active)、 禁 用 (disabled) 

bd 设置 按钮 的 边框 大 小 ，bd (bordwidth) 默认 为 1 或 者 2 个 像素 

创建 按钮 组 件 的 语法 格式 如 下 : 


Button 对 象 =Button (窗口 对 象 ，Button 属性 ) 


Button0) 函 数 的 第 一 个 参数 为 窗口 对 象 名 称 ， 后 面 的 参数 是 该 组 件 的 相应 属性 


o 


【 例 6-3】 创建 一 个 含有 四 个 按钮 的 程序 ， 每 个 按钮 的 属性 设置 如 图 6-4 所 示 ， 单 击 最 
后 一 个 按钮 ， 可 以 调 出 新 的 对 话 框 ， 如 图 6-5 所 示 。 


我 是 被 调用 的 命令 


0 已 到 虹 后 _ 条 记录 了 


Ee ees| 


图 6-4 ”Button 组 件 应 用 举例 图 6-5 Button 组 件 调 用 的 子 窗口 


在 以 上 程序 中 ， 主 窗口 标题 为 “测试 Button 组 件 的 不 同属 性 用 法 ” 窗口 中 四 个 按钮 
组 件 属性 设置 如 下 : Buttonl 显示 文本 “第 一 条 记录 ”， 宽 度 为 15， 按 钮 外 观 装饰 边界 标签 
是 平 的 , 背景 颜色 为 绿色 ; Button2 显示 文本 “上 一 条 记录 ”按钮 在 左 侧 显 示 位 图 “error”， 
按钮 为 激活 状态 ，Button3 显示 文本 “下 一 条 记录 ”， 文 本 在 按钮 中 垂直 居中 ， 水 平 居 左 显 
示 ， 按 钮 宽度 为 18， 高 度 为 2，Button4 显示 文本 “最 后 一 条 记录 ”， 前 景色 为 红色 ， 边 框 
设置 为 2 个 像素 ， 宽 度 为 18， 同 时 当 单 击 按钮 时 ， 能 够 调 出 子 窗口 。 程 序 中 末尾 的 “\” 
在 这 里 不 是 转 义 字符 ， 而 是 语句 太 长 ， 换 行 继 续 书写 。 程 序 代码 如 下 : 


# 测 试 putton 的 不 同属 性 
from tkinter import * 
# 导 入 tkinter 中 的 messagebox 模块 
from tkinter.messagebox import * 
root = Tk() 
root .title ("测试 Button 组 件 的 不 同属 性 用 法 ") 
# 创 建 第 一 个 按钮 buttonl 并 显示 
button1=Button (root, text=" 第 一 条 记录 ", width=15, relief=FLAT,bg="green") 
button]l .pack () 
# 创 建 第 二 个 按钮 putton2 并 显示 
button2=Button (root, text=" 上 一 条 记录 ", compound="left",\ 
state = ACTIVE,bitmap="error") 
button2 .pack () 
# 创 建 第 三 个 按钮 putton3 并 显示 
button3=Button (root, text=" 下 一 条 记录 ", anchor='w',width=18, height=2) 
button3 .pack () 
# 定 义 btn4 按钮 上 的 动作 函数 
def btn4 clicked (): 
showinfo ("我 是 被 调用 的 命令 ", "已 经 到 最 后 一 条 记录 了 ") 
# 创 建 第 四 个 按钮 putton4 并 显示 
button4=Button (root, text=" 最 后 一 条 记录 ",\ 
fg="red", bd=2,width=18, command=btn4 clicked) 


导 形 吉 历 友 开 
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button4.pack() 


root .mainloop () 


6.2.4 文本 杠 


文本 框 组 件 分 为 单行 文本 框 〈Entry) 和 多 行文 本 框 〈Text)。 单 行文 本 框 《Entry) 主 
要 用 于 输入 单行 内 容 和 显示 文本 ， 可 以 方便 地 向 程序 传递 用 户 参 数 。 多 行文 本 框 Text 使 用 
方法 类 似 Entry， 可 以 输入 多 行内 容 和 显示 文本 。 以 下 对 单行 文本 框 进行 详细 介绍 。 

创建 Entry 对 象 的 基本 方法 如 下 : 


Entry 对 象 = Entry (窗口 对 象 , Entry 属性 ) 
如 果 想 获取 单行 文本 框 内 输入 内 容 ， 需 要 用 get0 方 法 ， 格 式 如 下 : 
Entry 对 象 .get () 
Entry 常用 的 属性 ， 如 表 6-9 所 示 。 
表 6-9 Entry 组 件 常 用 属性 


属性 说 明 
show 如 果 设 置 为 字符 “*”， 则 输入 文本 框 内 显示 为 “*”， 用 于 密码 输入 


insertbackgroud 插入 光标 的 颜色 ， 默 认为 黑色 
selectbackground 选中 文本 的 背景 色 
selectforeground 选中 文本 的 前 景色 


width 组 件 的 宽度 (所 占 字 符 数 ) 

bg 设置 背景 颜色 

从 设置 前 景色 

state 组 件 状态 : 正常 (normal)、 激 活 (active)、 禁 用 (disabled) 


【 例 6-4】 创建 一 个 医生 诊疗 系统 界面 ， 效 果 如 图 6-6 所 示 。 密 码 文本 框 中 显示 “*”。 
窗口 尺寸 设置 为 230*150。 程 序 代码 如 下 : 


from tkinter import * 


root= Tk() 

root .title(' 医 生 诊疗 系统 ') ## 设 置 窗口 名 称 
root.geometry('250X150') # 设 置 窗口 显示 尺寸 
Label (root, text=' 用 户 名 ' , width=6) .place (x=5,y=10) ”# 创 建 “ 用 户 名 ”标签 
Entry (root, width=20) .place (x=55, y=10) # 创 建 用 户 名 标签 后 文本 框 
Label (root, text=' 密 码 ' ,width=6) .place (x=5, y=45) # 创 建 “ 密 码 ” 标 签 
Entry (root, width=20, show="'*') .place (x=55, y=45) # 创 建 密码 标签 后 文本 框 


Button (root, text=' 登录 ' ,width=8) .place (x=35,y=75) ”# 创 建 “ 登 录 ” 按 钮 
Button (root, text=' 取 消 ' ,width=8) .place (x=120,y=75) # 创 建 “ 取 消 ” 按 钮 
root .mainloop () 


place0 方 法 可 以 控制 组 件 的 位 置 。place(x,y) 即 将 组 件 放 到 指定 位 置 的 绝对 坐标 上 。 在 
Python 坐标 系 中 , 左上 角 为 (0.0) 原 点 的 位 置 ， 疝 右 为 x 坐标 正方 向 ,向 下 是 y 坐标 正方 向 。 
place(x=5,y=10) 就 是 将 当前 组 件 放 在 x=5，y=10 的 绝对 坐标 位 置 。 


程序 运行 结果 如 图 6-6 所 示 


ff 医生 诊疗 系统 


用 户 名 


| ww | 


6.2.5 列表 框 


医生 诊疗 系统 登录 界面 


列表 框 组 件 用 于 显示 多 个 项 目 ， 并 且 允 许 用 户 选 择 一 个 或 多 个 项 目 。 列 表 框 组 件 常用 


的 方法 如 表 6-10 所 示 。 


表 6-10 Listbox 组 件 常用 方法 


方法 


说 明 


Listbox( 窗 口 对象 ) 


packO 
insert(index,item) 


curselection 0 
delete(first,last) 


get(first,last) 


size() 
m=StringVar 


Lisbox 对 象 =listbbox(rootlistvariable=m) 


SetO 


创建 Listbox 对 象 
显示 Listbox 对 象 


插入 文本 项 ,index 是 插入 文本 项 的 位 置 ,在 尾部 插入 用 end， 


在 选中 处 插入 则 是 active。item 是 要 插入 的 项 
返回 选中 索引 ， 结 果 为 元 组 。 索 引号 从 0 开始 
删除 文本 项 ， 删 除 指定 〈firstlast) 范围 的 项 ， 
则 删除 1 个 项 目 


获取 项 目 内 容 ， 获 取 指 定 〈firstlast) 范围 的 项 ， 


则 返回 1 个 项 目 
获取 项 目 个 数 


不 指定 last 


不 指定 last 


获取 Listbox 内 容 ， 需 要 使 用 属性 listvariable 为 Listbox 对 


象 指 定 一 个 对 应 的 变量 ， 如 左 侧 mm 
获得 listbox 对 象 中 的 内 容 


【 例 6-$】 创建 如 下 列表 框 ， 通 过 选中 左 侧 列表 框 中 的 值 ， 单 击 “ 添 加 >> ”按钮 可 以 


添加 到 右 侧 选 定 字段 列表 框 中 。 也 可 以 选中 右 侧 列表 框 中 的 值 单 各 


除 。 程 序 代码 如 下 : 


from tkinter import * 
root = Tk() 

root .title(' 列 表 框 的 应 用 ' 
# 定 义 “ 添 加 >>” 按 钮 上 的 函数 
def callbuttonl () : 


) 


for i in listbl.curselection() : # 遍 历 选 中 项 
listb2.insert (0,1istbl.get (i))  # 添 加 到 右 侧 列表 框 中 


才 定义 “删除 <<” 按 钮 上 的 函数 
def callbutton2 () : 


二 “删除 <<” 按 钮 进行 删 
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for i in listb2.curselection(): ## 遍 历 选 中 项 
listb2.delete (i) 井 从 右 侧 列表 框 中 删除 
1i = [' 住 院 号 ',' 姓 名 ',' 性 别 ',' 出 生日 期 ',' 吸 烟 否 ',' 婚 否 '] 
listbl =Listbox (root) # 创 建 左 侧 列表 框 
listb2= Listbox (root) # 创 建 右 侧 列表 框 
for item in 1i: # 向 左边 列表 框 中 循环 插入 选项 


listbl.insert (0,item) 
# 创 建 两 个 标签 ， 并 布局 在 指定 行 ， 指 定 列 
Label (root, text=' 可 用 字段 ') -grid(row=0,column=1) 
Label (root, text=' 选 定 字 段 ') .grid (row=0, column=3) 
listbl .grid(row=1,column=1, rowspan=2) 
# 创 建 ' 添 加 >>' 和 ' 删 除 <<' 两 个 Button 组 件 
bl= Button (root, text=' 添 加 >>', command=callbutton1,width=10, bd=3) 
b2= Button (root, text=' 删 除 <<', command=callbutton2,width=10,bd=3) 
bl.grid (row=1, column=2, rowspan=2) # 对 组 件 bl 布局 
b2.grid (row=2, column=2, rowspan=2) # 对 组 件 b2 布局 
listb2.grid (row=1, column=3, rowspan=2) 
Foot .mainloop () 


明 序 运行 结果 如 图 6-7 所 示 。 


图 6-7 列表 框 的 应 用 


6.2.6” 单 选 按 钮 和 复 选 杠 


单 选 按钮 〈(Radiobutton) 和 复 选 框 Checkbutton) 分 别 用 于 实现 选项 的 单 选 和 复 选 功 
能 。 单 选 按钮 只 能 选择 一 项 。 复 选 框 用 于 选择 一 项 或 多 项 。 

1. 创建 单 选 按钮 对 象 

创建 单 选 按钮 对 象 的 基本 方法 如 下 : 

Radiobutton 对 象 = Radiobutton (窗口 对 象 ，Radiobutton 组 件 属性 ) 


2. Radiobutton 组 件 的 常用 属性 
(1) variable: 单 选 按钮 索引 变量 ， 通 过 变量 的 值 确 定 哪个 单 选 按钮 被 选中 。 一 组 单 选 
按钮 使 用 同一 个 索引 变量 。 


(2) value: 单 选 按钮 选中 时 变量 的 值 。 

(3) command: 单 选 按钮 选中 时 执行 的 命令 (函数 )。 
3. Radiobutton 组 件 的 方法 

(1) deselect0: 取消 选择 。 

(2) select0: 选择 。 

(3) invoke(): 调用 单 选 按钮 指定 的 回调 函数 。 

4. 创建 复 选 框 对 象 

创建 复 选 框 对 象 的 基本 方法 如 下 : 


Checkbutton 对 象 =checkbutton( 窗 口 对 象 ,text=Checkbutton 组 件 显 示 的 文本 , command= 
单 击 checkbutton 按钮 所 调用 的 回调 函数 ) 


5. CheckButton 组 件 的 常用 属性 

(1) variable: 复 选 框 索引 变量 ， 通 过 变量 的 值 确定 哪些 复 选 框 被 选中 。 每 个 复 选 框 使 
用 不 同 的 变量 ， 使 复 选 框 之 间 相 互 独立 。 

(2) onvalue: 复 选 框 选中 时 变量 的 值 。 

(3) offvalue: 复 选 框 未 选中 变量 的 值 。 

(4) command: 复 选 框 选中 时 执行 的 命令 (函数 )。 

6. 获取 Checkbutton 的 状态 

为 了 获取 Checkbutton 组 件 是 否 被 选中 ， 需 要 使 用 variable 属性 为 Checkbutton 组 件 指 
定 一 个 对 应 变量 。 通 过 该 变量 的 值 来 判断 当前 选中 的 是 Checkbutton 组 件 中 的 哪个 选项 。 
该 变量 初始 化 时 可 以 通过 set() 函 数 设 置 初始 值 。 

【 例 6-6】 创建 一 个 简单 的 Radiobutton 例子 ， 使 用 单 选 按钮 组 件 选 择 不 同 的 课程 ， 程 
序 代码 如 下 : 


from tkinter import * 

root = TE() 

Label (root, tezxt=' 课 程 名 称 ') .place (x=0, y=0) ， 间 创 建 标签 组 件 

# 创 建 StringVar 对 象 ， 记 录 单 选 按 钮 值 

r= StringVar () # 创 建 字 符 变 量 与 variable 绑 定 
r.set('2') # 设 置 变 量 初始 值 为 “2” 
radiol=Radiobutton (root, variable=r,value='1' ,text=' 大 学 计算 机 基础 ') 

# 在 坐标 (x=1, y=20〉 处 显示 第 一 个 单 选 按钮 

radiol .place (x=1, y=20) 

radio2=Radiobutton (root, variable=r, value='2', text=' 医 学 大 数据 应 用 概论 ' ) 
radio2.place (x=1, y=40) 

radio3=Radiobutton (root, variable=r, Value='3', text=' 虚拟 现实 与 增强 现实 技术 导论 ' ) 
radio3.place (x=1, y=60) 


root .mainloop () 


程序 运行 结果 如 图 6-8 所 示 。 
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图 6-8 单 选 按钮 的 应 用 


【 例 6-7】 单 选 按钮 和 复 选 框 的 综合 应 用 ， 程 序 代码 如 下 : 


from tkinter import * 
# 选 中 单 选 按钮 时 触发 colorchecked () 函数 修改 颜色 
def colorChecked(): 
label 1.config (fg=color.get()) 
# 选 中 复 选 框 时 触发 函数 typeCchecked () 修改 字体 
def typeChecked(): 
textType = typeUnderline.get()+typeItalic.get() 
if textType==1: 
label 1.config(font = ('Arial',12,'underline')) 
elif textType==2: 
label 1.config(font=('Arial',12,'italic')) 
elif textType==3: 
label 1.config(font=('Arial', 12, 'underline italic')) 


Slses 
label 1.config(font=('Arial',12)) 
root = Tk() 


Foot .title ("测试 复 选 框 ") 

root .geometry('200X200') 

color = StringVar () 

# 定 义 标签 显示 指定 文本 

label 1=Label (root, text=" 中 国医 科大 学 计算 机 教研 室 ",\ 

height=3, font=('Arial',12)) 

label 1.pack() 

# 定 义 “ 红 色 ” 单 选 框 ， 单 选 按钮 索引 变量 值 为 空 串 ， 当 被 选中 时 为 value 的 值 

Radiobutton (root, text=' 红 色 ',variable = color,value\ 
='red',command=colorChecked) .pack (side=LEFT) 

# 定 义 “ 蓝 色 ” 单 选 框 

Radiobutton (root, text=' 蓝 色 ',variable = color,value\ 
='blue',command=colorChecked) .pack (side=LEFT) 

typeUnderline = IntVar() 

typeItalic = Intvar() 

# 定 义 “ 下 画 线 ” 复 选 框 ， 被 选中 时 onvalue=1 

Checkbutton (root, text=' 下 夯 线 ', variable=typeUnderline,\ 

onvalue=1,offvalue=0, command=typeChecked) .pack (side=LEFT) 


# 定 义 “ 和 斜体 ” 复 选 框 ， 被 选中 时 onvalue=2 
Checkbutton (root, text=' 斜 体 ', variable=typeItalic,\ 

onvalue=2, offvalue=0, command=typeChecked) .pack (side=LEFT) 
root .mainloop () 


程序 运行 结果 如 图 6-9 所 示 。 


个 红色 人 昔 色 光 下 画 线 厂 笠 休 


图 6-9 单 选 按钮 和 复 选 框 的 综合 应 用 


6.2.7 消息 窗口 


消息 窗口 messagebox) 用 于 弹出 提示 框 向 用 户 进行 警告 ， 或 让 用 户 选择 下 一 步 如 何 
操作 ， 消 息 框 包括 很 多 类 型 ， 常 用 的 有 info、warning、eror、yesno、okcancel 等 ， 包 含 不 
同 的 图 标 、 按 钮 以 及 弹出 提示 音 。 

【 例 6-8】 消息 框 messagebox 的 应 用 。 程 序 代码 如 下 : 


import tkinter as tk 
from tkinter import messagebox as msgbox 
root = tk TK() 
# 定 义 “VR 是 什么 ”按钮 被 单 击 时 触发 的 事件 函数 
def btnl clicked() : 
msgbox .showinfo ('VR',，'VR 是 虚拟 现实 ') 
# 定 义 “AR 是 什么 ”按钮 被 单 击 时 触发 的 事件 函数 
def btn2 clicked(): 
msgbox .showinfo('AR', 'AR 是 增强 现实 ') 
root .title(' 测 试 messagebox') 


# 定 义 第 一 个 按钮 

btnl = tk.Button (root, text = 'VR 是 什么 ', command = btnl clicked) 

btn1 .pack () # 显 示 btnl 按钮 

# 定 义 第 二 个 按钮 

btn2 = tk.Button (root, text = 'AR 是 什么 ', command = btn2 clicked) 

btn2.pack () # 显 示 btn2 按钮 

root .mainloop () 第 

运行 结果 如 图 6-10 所 示 ， 当 单 击 “VR 是 什么 ”按钮 时 ， 弹 出 如 图 6-11 消息 窗口 。 6 
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图 6-10 消息 窗口 的 应 用 图 6-11 showinfo 消息 窗口 


6.2.8 ”对 话 框 


对 话 框 用 于 与 用 户 交 互 和 检索 信息 。Tkinter 模块 中 的 子 模块 messagebox、filedialog、 
colorchooser、simpleDialog 包括 一 些 通用 的 预定 义 对 话 框 ， 用 户 也 可 通过 继承 TopLevel 创 
建 自 定义 对 话 框 。 

模块 tkinter 的 子 模块 fledialog 包含 用 于 打开 文件 对 话 框 的 函数 askopenfilename()。 文 
件 对 话 框 提 供用 户 选择 某 文件 夹 下 的 文件 。 格 式 如 下 : 


askopenfilename (title=' 标 题 ', filetypes=[ (' 所 有 文件 ',' .*") ，(" 文 本 文件 :，' .txt')]) 


(1) filetypes: 文件 过 滤器 ， 可 以 筛选 某 种 格式 的 文件 。 
(2) title: 设置 打开 文件 对 话 框 的 标题 。 
同时 ， 还 有 文件 保存 对 话 框 函数 asksaveasfilename()。 格 式 如 下 : 


asksaveasfilename (title=' 标 题 ', initialdir="'e:\python 练 I', initialfile='hello.py') 


(1) initialdir: 默认 保存 路 径 ， 如 'd:\mypython'。 
(2) initialfile: 默认 保存 的 文件 名 ， 如 'firstpy'。 
【 例 6-9】 文件 对 话 框 的 打开 和 关闭 。 程 序 代码 如 下 : 


from tkinter import * 

from tkinter.filedialog import * 

#“ 打 开 文件 ”按钮 事件 处 理 函 数 

def openfile() : 
r = askopenfilename (title=' 打 开 文 件 ', filetypes=[('Python', '*.pyy,*. 
pyw'), ('all files','*')]) 
print (r) 

#“ 保 存 文件 ”按钮 事件 处 理 函 数 

def savefile(): 
Fr = asksaveasfilename (title = ' 保 存 文件 ', initialdir='e:\python- 练 习 '， 
initialfile='hello.py') 
print (r) 

root = Tk() 

root .title(' 打 开 对 话 框 示例 ') 

root.geometry('150X100') 

# 创 建 两 个 按钮 组 件 并 布局 显示 

Button (root, text=' 打 开 文 件 ', command=openfile) .pack (side='left') 


Button (root, text=' 保 存 文件 ', command=savefile) .pack (side='right') 

root .mainloop () 

程序 运行 结果 如 图 6-12 所 示 ， 当 单 击 “ 打 开 文 件 ”按钮 时 可 以 打开 指定 类 型 的 文件 ， 
当 单 击 “ 保 存 文件 ”按钮 时 可 以 保存 文件 ， 如 图 6-13 所 示 。 


图 6-12 文件 对 话 框 的 应 用 图 6-13 打开 文件 界面 


除了 文件 对 话 框 外 ， 还 有 颜色 对 话 框 和 简单 对 话 框 。 颜 色 对 话 框 是 tkinter 的 子 模块 
colorchoose 包含 用 于 打开 颜色 对 话 框 的 函数 askcolor0 。 颜色 对 话 框 可 以 提供 给 用 户 选 择 某 
种 颜色 。 简 单 对 话 框 是 模块 Tkinter 子 模块 simpledialog 中 的 一 个 功能 ， 主 要 用 于 打开 输入 
对 话 框 的 函数 。 


6.2.9 ”菜单 


菜单 (Menu) 是 图 形 用 户 界 面 经 常用 到 的 组 件 ， 菜单 包 含 各 种 按照 主题 分 组 的 基本 命 
令 ， 以 图 标 和 文字 的 方式 展示 可 用 选项 。 图 形 用 户 界面 应 用 程序 包括 两 种 类 型 的 菜单 。 

(1) 主 菜单 ;提供 窗 体 的 菜单 系统 ， 通 过 单 击 可 以 列 出 下 拉 菜 单 。 

(2) 上 下 文 菜单 〈 也 称 为 快捷 菜单 ): 上 下 文 菜单 是 一 种 根据 用 户 当 前 所 在 程序 位 置 
(上 下 文 ) 动态 生成 的 菜单 。 一 般 右 击 某 个 对 象 会 弹出 快捷 菜单 ， 常 用 的 命令 有 复制 、 剪 切 
等 操作 。 

1. 创建 主 菜单 

创建 菜单 对 象 的 基本 方法 如 下 : 

Menu 对 象 = Menu (Windows 窗口 对 象 ) 

将 Menu 对 象 显示 在 窗口 中 的 方法 如 下 : 

Windows 窗口 对 象 ['menu'] =Menu 对 象 

Windows 窗口 对 象 .mainloop () 

创建 一 个 顶级 菜单 ， 需 要 先 创建 一 个 菜单 实例 ， 然 后 将 菜单 项 添加 进去 ， 添 加 的 方法 
可 以 使 用 add_command() 方 法 。 

add_command 添加 菜单 项 ， 如 果 要 添加 的 菜单 是 顶级 菜单 ， 则 添加 的 菜单 项 依次 向 右 | 6 
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添加 。 该 方法 有 以 下 几 个 属性 :label 指定 菜单 的 名 称 ,command 指 的 是 调用 的 方法 ,acceletor 
是 快捷 键 ，underline 是 指 该 菜单 项 是 否 拥 有 下 画 线 。 格 式 如 下 : 

Menu 对 象 =add_command (1able= 菜 单项 名 称 , command= 菜 单项 调用 的 方法 名 ，…) 

2， 添加 下 拉 莱 单 

创建 一 个 下 拉 菜 单 的 方法 与 创建 主 菜 单方 法 类 似 ， 最 主要 的 区 别 就 是 下 拉 菜 单 需要 添 
加 到 主 菜单 中 ， 而 主 菜 单 需 要 添加 到 窗口 中 。 如 果 该 菜单 项 下 有 子 菜单 ， 添 加 下 拉 菜 单 的 
方法 是 add_cascade()， 如 创建 Menu 对 象 1 的 子 菜单 Menu 对 象 2 的 方法 如 下 : 

Menu 对 象 1.add_cascade (labe1= 菜 单 文件 ,menu=Menu 对 象 2) 

在 创建 Menu 对 象 2 时 也 要 指定 它 是 Menu 对 象 1 的 子 菜单 。 方 法 如 下 : 

Menu 对 象 2=Menu (Menu 对 象 1) 

【 例 6-10】 创建 主 菜单 ， 主 菜单 中 有 “查询 ”和 “退出 ”两 个 菜单 项 。 当 单 击 “查询 ” 
时 弹出 下 拉 菜 单 “ 住 院 号 查询 ”和 “科室 查询 ” 当 单 击 “ 退 出 ”按钮 时 ， 退 出 并 关闭 当前 
窗口 。 程 序 代码 如 下 : 


from tkinter import * 
root = Tk() # 创 建 窗口 
root.title ("Python Menu") # 添 加 标题 


# 定 义 “ 退 出 ”菜单 项 上 的 函数 
def quit(): 


root.quit() # 关 闭 窗口 
root.destroy() # 将 窗口 所 有 组 件 销毁 ， 内 存 回 收 
exit() 

m = Menu(root) # 在 当前 窗口 创建 菜单 栏 

root ['menu']=m # 将 菜单 对 象 咽 显示 在 当前 窗口 


# 在 菜单 m 上 创建 一 个 新 的 菜单 对 象 selectMenu 

selectMenu = Menu (m) 

# 在 菜单 m 上 添加 子 菜单 “查询 ”并 指明 selectMenu 是 mm 的 子 对 象 
m.add cascade (label=" 查 询 ",，menu=selectMenu) 

# 在 “查询 ”下 添加 “住院 号 查询 ” 

selectMenu.add command (label=" 住 院 号 查询 ") 

# 在 “查询 ”下 添加 “科室 查询 ” 

selectMenu.add command (label=" 科 室 查 询 ") 

坦 在 菜单 栏 中 创建 一 个 “退出 ”菜单 项 ， 并 绑 定 _quit 函数 

m.add command (label=" 退 出 "，command= quit) 


root .mainloop () 


程序 运行 结果 图 如 图 6-14 和 图 6-15 所 示 。 


图 6-14 主 菜单 运行 结果 


6.3 窗 


6.3.1 Canvas 画布 组 件 


图 6-15 添加 下 拉 菜 单 运行 结果 


口内 图 形 绘制 


Canvas 画布 为 Tkinter 提供 了 绘图 功能 ， 其 提供 的 图 形 组 件 包括 线形 、 圆 形 、 图 片 等 


其 他 控件 。 
创建 一 个 Canvas 对 象 的 方法 为 : 


Canvas 对 象 =Canvas (窗口 对 象 ， 选 项 ，…… ) 
Canvas 画布 常用 属性 如 表 6-11 所 示 。 


表 6-11 Canvas 画布 常用 属性 


属性 说 明 

master 代表 了 父 窗口 

bg 背景 色 ， 如 bg='red'，bg='#FF56EF' 

他 前 景色 ， 如 fg='red'，fg=#FF56EF' 

height 设置 显示 高 度 ， 如 果 未 设置 此 项 ， 其 大 小 适应 内 容 标签 

relief 指定 外 观 装饰 边界 附近 的 标签 ， 默 认 是 平 的 ， 可 以 设置 的 参数 : flat、 
groove、 raised、 ridge、solid、sunken 

width 设置 显示 宽度 ， 如 果 未 设置 此 项 ， 其 大 小 适应 内 容 标签 

state 设置 组 件 状态 : 正常 (normal)、 激 活 (active)、 禁 用 (disabled) 

bd 设置 Button 的 边框 大 小 :bd(bordwidth) 默 认为 1 或 2 个 像素 


6.3.2 绘制 图 形 对 象 
Canvas 画布 上 可 以 绘制 图 形 对 象 如 


圆 、 文 字 以 及 位 图 
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和 图 像 。Canvas 画布 上 绘制 各 种 图 形 对 象 的 绘制 函数 如 表 6-12 所 示 。 
表 6-12 ”Canvas 画布 绘制 函数 
函数 说 明 
create arc 绘制 圆 弧 
create_bitmap 绘制 位 图 ， 支 持 XBM,， bitmap= BitmapImage(file = filepath) 
create_line 绘制 直线 
create_oval 绘制 椭圆 
create_ polygon 绘制 多 边 形 
create_rectangle 绘制 矩形 
create text 绘制 文字 
create_ window 绘制 窗口 
delete 删除 绘制 的 图 形 
itemconfig 修改 图 形 属性 ， 第 一 个 参数 为 图 形 的 IJD， 后 边 为 想 修改 的 参数 
move 移动 图 像 
coords(ID) 返回 对 象 的 位 置 的 两 个 坐标 〈4 个 数字 元 组 ) 
Canvas 上 的 每 个 绘制 对 象 都 有 一 个 标识 id 整数 )， 使 用 绘制 函数 创建 绘制 对 象 时 ， 


返回 绘制 对 象 id。 例 如 : 
id1=cv.create_line(0,0,200,200,width=2) 该 语句 可 以 在 Canvas 对 象 cv 上 绘制 
idl， 起 点 为 《0,0)， 终 点 为 (200,200)， 线 宽 为 2。 


具体 实例 如 : 


容 是 “Canvas 儿 


如 下 : 


id2.create_text(300,30,text="Canvas 名 
对 象 为 id2,(300,30) 为 文本 左上 角 的 x 坐标 和 文本 左上 角 的 y 坐标 ， 需 要 
会 制 直线 ”， 
【 例 6-11】 创建 一 个 绿色 背景 的 Canvas 画布 ， 并 在 画布 上 绘制 


-条 直线 
绘制 文字 对 象 的 方法 是 create_text()， 
会 制 直线 ",font=("Arial", 18)。 绘制 的 文字 
显示 的 文本 内 
字体 字号 是 Arial、18。 


-条 直线 。 程 序 代码 


from tkinter import * 


root=Tk () 


root .title ("简单 绘画 ") 
root .geometry("400x300") 


#width, height :设置 画布 的 宽 高 ，bg :设置 背 景色 
can=Canvas (root,width=400, height=300, bg="green") 


# 绘 制 一 条 线 ， 起 点 -- 终 点 ， 线 宽 

can.create line((0,0,200,200),width=4) 

# 绘 制 文字 ， 前 两 个 参数 为 字 的 位 置 

can.create text (300,30,text="Canvas 绘制 直线 "， font=("Arial", 18)) 
can-pack() # 布 局 方式 

root .mainloop () # 进 入 消息 循环 


程序 运行 结果 如 图 6-16 所 示 。 


背景 填充 绿色 


图 6-16 ”Canvas 绘制 直线 运行 结果 


使 用 create_rectangle0 方 法 可 以 创建 算 形 对 象 。 具 体 语法 如 下 : 


Canvas 对 象 .create_rectangle (矩形 左上 角 的 x 坐标 , 矩形 左上 角 的 y 坐标 , 矩形 右 下 角 的 
坐标 ， 拢 形 右 下 角 的 Y 坐标 ， 选 项 ，…) 


创建 矩形 对 象 时 ， 常 用 的 选项 如 表 6-13 所 示 。 
表 6-13 Canvas 创建 和 形 对 象 常用 选项 


选项 说 明 

outline 边框 颜色 

fill 填充 颜色 

width 边框 宽度 

dash 边框 为 虚线 

stipple 使 用 自 定义 画 刷 填充 矩形 


【 例 6-12】 创建 矩形 对 象 ， 要 求 矩 形 填充 色 为 橘 黄色 ， 边 框 为 红色 ， 边 框 宽度 为 2， 
矩形 左上 角 点 的 坐标 为 《20.20)， 右 下 角 坐 标 为 〈200,200)。 程 序 代码 如 下 : 


from tkinter import * 

root=Tk () 

root .title (" 创 建 和 矩形 ") 

rect=Canvas (root, width=200, height=200) 
# 绘 制 矩形 ， 填 充 色 为 橘 黄色， 边框 为 红色 


rect .create rectangle(20,20,200,200,width=2,fill="'orange',outline='red') 


rect .pack () # 布 局 方式 

root .mainloop () # 进 入 消息 循环 

运行 结果 如 图 6-17 所 示 。 
6 
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属 有 界面 砍 矿 


二 级 Python 顷 杖 背 丧 


填充 色 是 桶 黄色 


图 6-17 ”Canvas 绘制 矩形 运行 结果 


6.4 Python 事件 处 理 


6.4.1 事件 类 型 


事件 是 指 由 用 户 或 系统 触发 的 一 个 特定 的 操作 。 例 如 用 鼠标 单 击 命令 按钮 ， 将 会 触发 
事件 。 一 个 对 象 包含 有 很 多 个 系统 预先 规定 的 事件 。 事 件 一 旦 被 触发 ， 系 统 就 会 去 执行 与 
该 事件 对 应 的 程序 。 过 程 执行 结束 后 ， 系 统 重新 处 于 等 待 某 事件 发 生 的 状态 ， 这 种 程序 执 
行 方式 称 为 应 用 程序 的 事件 驱动 工作 方式 。 


<[modifier-]>…type[-detail] 

事件 类 型 必须 放 在 <> 内 。type 描述 了 事件 的 类 型 ,如 鼠标 单 击 ` 双 击 、 键 盘 按键 ;modifier 
用 于 组 合 键 的 定义 ， 例 如 control、alt detail 用 于 定义 是 哪个 键 或 按钮 的 事件 ， 如 1 表示 
鼠标 左 键 、2 表示 鼠标 中 键 、3 表示 鼠标 右键 。 例 如 : 

<Button-1> # 按 下 鼠标 左 键 


<KeyPress-A> # 按 下 键盘 上 的 A 键 
<Control-Shift-KeyPress-A> # 同 时 按 下 了 Control、Shift、A 三 个 键 


Python 中 的 事件 主要 有 : 键盘 事件 ( 见 表 6-14)、 鼠 标 事件 〈 见 表 6-15)、 窗 体 事件 ( 见 


表 6-16)。 

表 6-14 键盘 事件 

名 称 描述 

KeyPress 按 下 键盘 某 个 按键 时 触发 ， 可 以 在 detail 部 分 指定 哪个 键 

KeyRelease 释放 键盘 某 个 按键 时 触发 ， 可 以 在 detail 部 分 指定 哪个 键 
表 6-15 鼠标 事件 

名 称 描述 

ButtonPress/Button 按 下 鼠标 某 键 ， 可 以 在 detail 部 分 指定 是 哪个 键 


ButtonRelease 释放 鼠标 某 键 ， 可 以 在 detail 部 分 指定 是 哪个 键 


续 表 


名 称 描述 
Motion 选中 组 件 的 同时 拖 动 组 件 移动 时 触发 
Enter 当 鼠 标 指针 移动 到 某 组 件 时 触发 
Leave 当 鼠 标 指针 移出 到 某 组 件 时 触发 
MouseWheel 当 鼠 标 滚轮 滚动 时 触发 
表 6-16 窗 体 事件 
名 称 描述 
Visibility 当 组 件 变 为 可 视 状 态 时 爆发 
Unmap 当 组 件 由 显示 状态 变 为 隐藏 状态 时 触发 
Map 当 组 件 由 隐藏 状态 变 为 显示 状态 时 触发 
Expose 被 其 他 组 件 和 遮盖 的 状态 中 暴露 出 来 时 触发 
Focusln 时 触发 
FocusOut 时 触发 
Configure 当 改 变 组 件 大 小 时 触发 ， 例 如 拖 动 窗 体 边缘 
Propertly 当 窗 体 的 属性 被 删除 或 者 改变 时 触发 ， 属 于 全 的 核心 事件 
Destroy 当 组 件 被 销毁 时 触发 


6.4.2 ”事件 处 理 函数 
事件 处 理 函数 是 响应 某 个 事件 而 调用 的 函数 。 事 件 处 理 函数 一 般 带 有 一 个 event 参数 。 
触发 事件 调用 事件 处 理 函 数 时 ， 将 传递 Event 对 象 实例 。 


Def callback (event): 
Showinfo ("Python 事件 ", "定义 事件 处 理 函数 ") 


Event 对 象 实例 可 以 获取 各 种 相关 参数 。Event 事件 对 象 的 主要 参数 属性 如 表 6-17 所 示 。 
表 6-17 Event 事件 对 象 的 主要 参数 属性 


参数 描述 

xy 鼠标 相对 于 组 件 对 象 左 上 角 的 坐标 

x_root,y_root 鼠标 相对 于 屏幕 左上 角 的 坐标 

keysym 字符 串 命名 按键 ， 如 Insert、Delete、Down、Left 等 
keysym_num 数字 代码 命名 按键 

keycode 键 码 

time 时 间 

type 事件 类 型 

widget 触发 事件 的 对 应 组 件 

char 字符 


6.4.3 事件 绑 定 


程序 建立 一 个 处 理 某 一 事件 的 事件 处 理 函数 ， 称 为 绑 定 。 
1 创建 组 件 对 象 时 指定 
创建 组 件 对 象 实例 时 ， 可 以 通过 命名 参数 command 指定 事件 处 理 函数 。 例 如 ， 和 


奉 
属 有 界面 族 矿 


二 级 Python 和 须 醋 兹 现 


Def callback() : 

Showinfo(' 单 击 按钮 这 个 事件 调用 的 该 语句 ' ) 
Button1=Button (root, text=' 设 置 command 事件 调用 命令 ', command=callback) 
Buttonl .pack () 


2. 实例 绑 定 
目 组 件 对 和 象 实例 方法 bindO 可 以 为 指定 组 件 实例 绑 定 事件 ， 这 是 最 常用 的 事件 绑 定 


国 


方法 。 
组 件 对 象 实例 名 .bind ("< 事件 类 型 >" ,事件 处 理 函 数 ) 


假设 声明 一 个 名 为 canvas 的 Canvas 组 件 对 象 ， 如 果 想 在 按 下 鼠标 左 键 时 在 画布 上 画 
一 条 线 ， 可 以 按照 如 下 代码 实现 : 


canvas.bind ("<Button-1>",drawline) 


其 中 ，bind0) 函 数 的 第 一 个 参数 是 事件 描述 符 ， 指 定 无 论 什 么 时 候 ， 在 canvas 上 按 下 
鼠标 左 键 时 ， 即 可 调用 事件 处 理 函 数 drawline 执行 画 线 任务 。 

3， 标识 绑 定 

在 Canvas 画布 中 绘制 各 种 图 形 , 将 图 形 与 事件 绑 定 可 以 使 用 标识 绑 定 函数 tag_bind()。 
预先 为 图 形 定义 标识 tag 后 ， 通 过 标识 tag 来 绑 定 事 件 。 

【 例 6-13】 在 Canvas 画布 上 绘制 一 条 直线 ， 单 击 鼠 标 左 键 时 显示 “Line 左 键 事件 ”， 
单 击 鼠 标 右键 时 显示 “Line 右键 事件 ”。 程 序 代码 如 下 : 


from tkinter import * 
root=Tk () 

# 左 键 单 击 直 线 时 触发 事件 
def printLine L(event) : 


print ('Line 左 键 事件 ') 


# 右 键 单 击 直 线 时 触发 事件 
def printLine R(event) : 

print ('Line 右键 事件 ') 
root .title ("事件 绑 定 测试 ") ## 设 置 窗口 名 称 
Cv=Canvas (root, width=400, height=300) 井 设 置 画布 尺寸 
Cv.create line((0,0,200,200),width=4,tag='rl') # 绘 制 直线 ， 标 识 设 为 rl 
Cv.tag bind('rl','<Button-1>',printLine L) # 绑 定 图 形 与 鼠标 左 键 事件 
Cv.tag bind('rl','<Button-3>',printLine R) # 绑 定 图 形 与 鼠标 右键 事件 
Cv.pack() 


root .mainloop () 


用 鼠标 左 键 单 击 直线 时 ， 输 出 Line 左 键 事件 ， 右 键 单 击 时 输出 Line 右键 事件 。 程 
序 运 行 结果 如 图 6-18 所 示 。 


和 事件 绑 定 测试 | © sn 


图 6-18 ”标识 绑 定 程序 运行 结果 


本 章 小 结 


本 章 主要 介绍 了 Python 图 形 界面 设计 ， 以 Tkinter 为 例 介 绍 了 GUI 常用 的 组 件 ， 如 标 
签 、 按 钮 、 列 表 框 、 对 话 框 等 , 然后 介绍 了 图 形 绘制 Canvas 画布 的 应 用 , 最 后 介绍 了 Python 
事件 处 理 。 通 过 本 章 的 学 习 ， 读 者 能 够 对 Python GUI 编程 和 Tkinter 模块 有 一 定 的 了 解 和 
掌握 ， 为 后 续 章 节 的 学 习 打 下 良好 的 理论 基础 。 
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第 7 章 数据 库 应 用 


导 学 

作为 一 种 通用 性 极 强 的 程序 设计 语言 ，Python 在 数据 库 应 用 领域 也 有 着 广泛 的 应 用 ， 
受到 数据 库 开 发 人 员 的 青睐 。 通 过 标准 数据 库 接 口 Python DB-API，Python 能 够 支持 绝 大 
多 数 的 主流 数据 库 ， 如 MySQL、Sybase、SQL Server、Oracle、SAP、SQLite 等 。 本 章 主 
要 介绍 结构 化 查询 语言 (SQL )， 讲 解 Python 自 带 的 轻 量 级 关系 型 数据 库 SQLite 的 基本 使 
用 方法 和 应 用 实例 ， 讲 解 Python 访问 主流 数据 库 与 存储 海量 文本 数据 的 方法 。 

了 解 : SQLite 数据 库 的 概念 和 基本 用 法 ，Python 访问 主流 数据 库 与 存储 海量 文本 数据 

掌握 : SQL 语句 的 基本 用 法 ，SQLite 数据 库 访 问 和 编程 方法 。 

作为 对 大 量 信 息 进行 存储 、 处 理 和 管理 的 数据 库 技术 ， 从 20 世纪 60 年 代 后 期 产生 以 
来 得 到 了 迅速 发 展 。 目 前 ， 绝 大 多 数 的 计算 机 应 用 系统 均 离 不 开 数据 库 技术 的 支持 。 近 些 
年 ，Python 成 为 数据 库 技术 应 用 的 佼佼 者 。 


7.1 ”结构 化 查询 语言 SQL) 


SQL (Structured Query Language，SQL) 即 结 构 化 查询 语言 ， 是 通用 的 、 非 过 程 化 的 
关系 型 数据 库 操作 语言 。SQL 集 数据 定义 、 数 据 操 纵 、 数 据 控制 三 大 功能 为 一 体 ， 可 以 完 
成 数据 库 开 发 过 程 中 的 绝 大 部 分 工作 。 

7.1.1 SQL 基本 语句 

1. 创建 表 

CREATE TABLE 语句 用 于 创建 数据 库 中 的 表 。 

语法 格式 : 

CREATE TABLE 表 名 (字段 名 1 数据 类 型 ,字段 名 2 数据 类 型 ,字段 名 3 数据 类 型 ，.…) 


例如 : 创建 名 为 student 的 表 , 包含 id、name、nickname、age、sex、address 六 个 字段 。 
其 中 id 是 主键 ，name 是 不 可 以 重复 的 ，nickname 默认 为 NULL。 


create table student (id integer primary key, name varchar (10) 
UNIQUE, nickname text NULL,age integer, sex varchar(6),address varchar (20)) 


2. 删除 表 
DROP TABLE 语句 用 于 删除 表 〈 表 的 结构 以 及 索引 也 会 被 删除 )。 


语法 格式 : 
DROP TABLE 表 名 
例如 : 删除 student 表 。 


drop table student 


3. 清空 
DELETE FROM 语句 用 于 清空 (全 部 删除 ) 表 中 的 记录 。 
语法 格式 : 


DELETE FROM 表 名 WHERE 条 件 表达 式 
例如 : 清空 student 表 中 的 所 有 记录 。 语 句 如 下 : 
delete from student 


4. 插入 记录 
INSERT INTO 语句 用 于 向 表 中 插入 新 的 记录 。 
INSERT INTO 表 名 (字段 名 1, 字 段 名 2, 字段 名 3,…) VALUES ( 值 1, 值 2, 值 3,…) 


例如 ; 向 student 表 中 插入 一 条 新 记录 ，id=1，name='Jame'，nickname='mio'，age=25， 
sex='male', address="New York'。 


insert into student values(1,'Jame', 'mio',25,'male','New York') 


S$. 更 新 记录 

UPDATE 语句 用 于 更 新 表 中 的 数据 。 

语法 格式 : 

UPDATE 表 名 SET 字段 名 = 新 值 WHERE 条 件 表 达 式 

例如 : 将 student 表 中 id 为 1 的 记录 的 name 字段 值 更 新 为 Tom。 


update student set name='Tom' where id =1 
7.1.2 SQL 查询 语句 


SQL 查询 语句 的 基本 语法 格式 : 
SELECT 字段 名 表 FROM 表 名 WHERE 查询 条 件 GROUP BY 分 组 字段 ORDER BY 排序 字段 


[ASCIDESC1] 

1. 字段 名 表 

字段 名 表 指 出 所 查询 的 字段 ， 它 可 以 由 一 组 字段 、 星 号 、 表 达 式 、 变 量 等 构成 。 第 

例如 : 查询 student 表 中 所 有 字段 的 数据 。 区 
E 
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Select * from student 


2. WHERE 子 句 

WHERE 子 句 设置 查询 条 件 ， 过 滤 掉 不 需要 的 记录 。WHERE 子 句 可 包括 以 下 条 件 运 
算 符 。 

(1) 比较 运算 符 〈 比 较 大 小 ): >、>=、<、 二 、=、 二 、!>、!<。 

例如 : 查找 student 中 姓名 为 “Tom” 的 id 号 。 


select id from student where name='Tom' 

(2) 范围 运算 符 ( 表 达 式 是 否 在 指定 的 范围 内 ): BETWEEN…AND…、NOT 
BETWEEN…AND…。 

例如 : 查找 student 中 年 龄 在 20 一 25 的 学 生 姓 名 。 


select name from student where age between 20 and 25 

(3) 列表 运算 符 〈 判 断 表 达 式 是 否 为 列表 中 的 指定 项 ): IN( 项 1， 项 2，…)、NOT IN 
(项 1， 项 2，…)。 
例如 : 查找 student 中 地 址 是 New York 或 Los Angeles 的 学 生 姓 名 。 
select name from student where address in('New York','Los Angeles') 
(4) 逻辑 运算 符 〈 用 于 逻辑 运算 ): NOT、AND、OR。 
例如 : 查找 student 中 年 龄 大 于 20 岁 的 女性 姓名 。 
Select name from student where age>20 and sex='female' 
(5) 模式 匹配 运算 符 (判断 值 是 否 与 指定 的 字符 通配符 格式 相符 ): LIKE、NOT LIKE。 
例如 : 查找 student 中 所 有 姓名 以 S 开头 的 学 生 信 息 。 
select * from student where name like 'Sss%' 
说 明 ，% 可 匹配 任意 类 型 和 长 度 的 字符 ， 如 果 是 中 文 ， 使 用 两 个 百 分 号 即 可 。 
3. 数据 分 组 
GROUP BY 子 句 用 于 将 查询 到 的 数据 依据 某 个 字段 的 值 进 行 分 组 。 
例如 : 分 别 统 计 student 表 中 男女 学 生 的 平均 年 龄 。 
select sex,avg(age) as avg age from student group by sex 
这 里 AVG( 字 段 名 ) 是 库 函 数 ， 常 用 的 库 函 数 如 表 7-1 所 示 。 

表 7-1 库 函 数 的 名 称 与 功能 


函数 名 功能 

COUNTO 求 查询 结果 的 记录 数 
SUMO 求 指定 数值 型 字段 的 总 和 
AVG0 求 指定 数值 型 字段 的 平均 值 
MAXO0 求 指定 字段 的 最 大 值 


MINO 求 指定 字段 的 最 小 值 


4. 查询 结果 排序 
使 用 ORDER BY 子 句 对 查询 返回 的 结果 按照 一 个 字段 或 多 个 字段 排序 。 
例如 : 查找 student 表 的 姓名 、 性 别 、 年 龄 字段 ， 查 询 结果 按照 年 龄 降序 排列 。 


select name, sex,age from student order by age DESC 


7.2 SQLite3 数据 库 基础 


1. SQLite3 简介 

SQLite3 是 一 款 轻 量 级 的 嵌入 式 关 系 型 数据 库 ， 由 C 语言 编写 ， 支 持 
Windows/Linux/Unix 等 主流 操作 系统 。SQLite3 体积 小 、 易 使 用 、 可 移植 性 强 、 高 效 而 且 
可 靠 , 广泛 用 于 移动 终端 数据 库 的 开发 ， 如 Android、iOS 开发 等 。Python 程序 自身 集成 了 
SQLite3 数据 库 ， 可 以 直接 访问 。 

2. SQLite3 的 特点 

(1) 体积 小 : 最 低 只 需要 几 百 “KB ”的 内 存 就 可 以 运行 。 

(2) 性 能 高 : 对 数据 库 的 访问 性 能 高 ， 其 运行 速度 远 快 于 Mysql、PostgreSQL 等 开源 
数据 库 。 

(3) 支持 SQL: SQLite3 支持 ANSI SQL92 中 的 大 多 数 标准 ， 提 供 了 对 子 查询 、 视 图 、 
触发 器 等 机 制 的 支持 。 

(4) 可 移植 性 强 : SQLite3 无 须 安装 ， 能 在 Windows、Linux、BSD、Mac OS、Solaries 
等 软件 平台 中 运行 。 

(5) 接口 丰富 : SQLite3 为 Python、C、Java、PHP 等 多 种 程序 设计 语言 提供 了 API 
接口 ， 所 有 的 应 用 程序 都 必须 通过 接口 访问 SQLite 数据 库 。 

3， SQLite3 的 存储 类 型 和 数据 类 型 

SQLite3 采用 了 动态 的 数据 类 型 系统 ,会 根据 存 入 值 自动 判断 数据 类 型 ,并且 SQLite3 
的 动态 数据 类 型 能 够 向 后 兼容 其 他 数据 库 普 遍 采用 的 静态 类 型 。 每 个 存储 在 SQLite3 数据 
库 中 的 值 都 是 表 7-2 中 的 一 种 存储 类 型 。 


表 7-2 SQLite3 的 存储 类 型 


存储 类 型 描述 

NULL 空 值 

INTEGER 带 符 号 的 整数 ， 根 据 存 入 数值 的 大 小 占据 1、2、3、4、6 或 8 字 节 
REAL 浮 点 值 ， 采 用 8B〈 即 双 精 度 ) 的 IEEE 格式 表示 

TEXT 字符 串 文 本 ， 使 用 数据 库 编 码 (UTF-8、UTF-16BE 或 UTF-16LE) 存储 
BLOB 二 进 制 大 对 象 ， 例 如 图 片 、 音 乐 、zip 文件 


实际 上 ,SQLite3 也 支持 表 7-2 所 示 的 数据 类 型 。 这 些 数据 类 型 在 运算 或 保存 时 会 转 成 
7-2 所 列 出 的 5 种 存储 类 型 之 一 。 

SQLite3 使 用 的 是 弱 数 据 类 型 , 除了 被 声明 为 主键 的 INTEGER 类 型 的 字段 外 ,允许 保 
存 任何 类 型 的 数据 到 所 要 保存 的 任何 表 的 任何 字段 中 。 也 就 是 说 ， 数 据 的 类 型 是 由 要 存储 
的 数值 自身 决定 的 ， 与 字段 的 类 型 声明 无 关 。 但 是 为 了 代码 的 可 阅读 性 以 及 兼容 其 他 数据 | 7 


入 拇 庚 应 用 
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库 引擎 ， 不 建议 默认 字段 的 类 型 声明 。 


表 7-3 SQLite3 支持 的 数据 类 型 


数据 类 型 描述 

smallint 16 位 整数 

interger 32 位 整数 

decimal(p,s) ”Pp 是 精确 值 ，s 是 小 数位 

float 32 位 实数 

double 64 位 实数 

char(n) 长 度 为 n 的 字符 串 ，n 不 能 超过 254 

varchar(n) 长 度 不 固定 且 其 最 大 长 度 为 n 的 字符 串 ，n 不 能 超过 4000 
graphic(n) 和 char(n) 一 样 ， 单 位 是 两 个 字符 ，n 不 能 超过 127 〈 中 文字 ) 
vargraphic(n) ”可 变 长 度 且 最 大 长 度 为 n 

date 包含 了 年 份 、 月 份 、 日 期 

time 含 了 小 时 、 分 钟 、 秒 

timestamp 包含 了 年 、 月 、 日 、 时 、 分 、 秒 、 千 分 之 一 秒 


7.3 Python 的 SQLite3 数据 库 编程 


Python2.5 以 上 版 本 内 置 了 SQLite3, 在 Python 中 使 用 SQLite3, 不 需要 安装 任何 软件 ， 


可 直接 使 


o 


7.3.1 访问 数据 库 的 步骤 


1. 创建 SQLite3 数据 库 
可 以 使 用 可 视 化 工具 如 SQLite Manager 工具 进行 创建 (在 网 上 能 够 下 载 各 种 版 本 的 
SQLite Manager)， 如 图 7-1 所 示 。 


保存 在 站 sqLite3 A 

Ga 名 称 和 修改 日 期 上 

回 sqfe3 2017/5/31 12:35 I 
加 es 2018/5/18 11:42 1 


图 7-1 使 用 SQLite Manage 工具 创建 SQLite3 数据 库 


2. 使 用 SQLite3 数据 库 
在 Python 中 使 用 SQLite3 数据 库 ， 需 要 以 下 几 个 关键 步骤 。 


(1) 导入 SQLite3 数据 库 模块 。 
Python 自 带 SQLite3 模块 ， 可 直接 导入 。 


import sqlite3 


(2) 建立 数据 库 连接 ， 返 回 数据 库 连 接 对 象 。 
使 用 connectO 函 数 建立 数据 库 连 接 ， 生 成 一 个 connect 对 象 ， 以 提供 数据 库 操作 。 


conn=sqlite3.connect (数据 库 名 称 ) 


说 明 : connect 对 象 有 如 下 方法 : 

@ cursor0: 创建 游标 对 象 。 

@ commit0: 提交 当前 事务 。 数 据 库 执 行 增 、 删 、 改 后 必须 执行 commit， 否 则 操作 
无 效 。 

@ rollback0: 取消 当前 事务 。 

@ close0: 关闭 此 connect 对 象 ， 关 闭 后 无 法 再 进行 操作 ， 除 非 再 次 创建 连接 。 

这 里 的 事务 可 以 认为 是 一 整套 操作 只 要 有 一 处 丝 漏 就 作废 。 

(3) 创建 游标 对 象 。 

游标 是 一 种 能 从 多 条 记录 的 结果 集中 每 次 提取 一 条 记录 的 机 制 。 


cur=conn.cursor() 


cursor 对 象 有 如 下 方法 : 

@ excute(sql]): 执行 SQL 语句 。 

@ excute(sql,parameters]): 执行 带 参数 的 SQL 语句 。 

@ excutemany(sql, seq_of parameters): 根据 参数 执行 多 次 SQL 语句 。 
(@ excutescript(sq]_script): 执行 SQL 脚本 。 

@ fetchone0: 返回 结果 集 的 下 一 行 ， 无 数据 时 ， 返 回 None。 

@ fetchmany(): 返回 结果 集 的 多 行 无 数据 时 ， 返 回 空 List。 

@ fetchall0: 返回 结果 集中 剩 下 的 所 有 行 无 数据 时 ， 返 回 空 List。 
@ close0: 关闭 此 游标 对 象 。 

(4) 数据 库 的 提交 或 回 滚 。 

conn .commit () ”事务 提交 

conn .rollback () # 事 务 回 滚 


(5) 最 后 关闭 游标 对 象 和 数据 库 连 接 对 象 。 


cur.close() # 关 闭 游 标 对 象 
conn.close () # 关 闭 数据 库 连 接 对 象 


7.3.2 数据 库 应 用 实例 
本 实例 设计 了 一 个 学 生 管理 信息 系统 ， 实 现 学 生 信息 录入 、 学 生 选课 、 学 生 信 息 和 选 


禾 握 雍 顾 用 
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课 情况 查询 的 功能 。 
1. 学 生 信息 录入 模块 
代码 如 下 : 
import sqlite3 # 导 入 sqlite3 数据 库 接口 模块 
cx = sqlite3.connect ('D:/student .db') 井 连接 数据 库 student .db 


cx.execute( '''CREATE TABLE StudentTable( 间 创 建 StudentTable 表 


ID INTEGER PRIMARY KEYAUTOINCREMENT, 
StuId INTEGER NOT NULL, 
NAME TEXT NOT NULL, 
CLASS INT NOT NULL 
Re 
print ("Table created successfully!") # 显 示 创 建成 功 信息 
cx.execute('''CREATE TABLE CourseTable ( 间 创 建 CourseTable 表 
CourseId INT NOT NULL, 
Name TEXT NOT NULL, 
Teacher TEXT NOT NULL, 
Classroom TEXT NOT NULL, 
StartTime CHRR (11) NOT NULL, 
EndTime CHRR (11) NOT NULL 
和 
cu = cx.cursor() # 创 建 游标 对 象 
CourseTable = [('1', 'Qt', 'ming', 602, 'Monday9:00', 'Mondayl1:00'), 


C2 DIS "han 605 “Fridavli3:20"e "Fridavyia:200), 
('3', 'sqlite3', 'hah', 608, 'Thursday15:00', 'Thursday17:00'), 
] 


cu.executemany ("insert into CourseTable values(?, 2?, ?2, 2?, ?2, 2)", 


CourseTable) # 插 入 课程 信息 
cx.commit () 
print ("Table created successfully!") # 显 示 插 入 成 功 信 息 
cx.execute('''CREATE TABLE XuankeTable( # 创 建 XuankeTable 表 
ID INTEGER PRIMARY KEYAUTOINCREMENT, 
stuId INT NOT NULL, 
CourseId INT NOT NULL 
asoo) 
print ("Table created successfully") # 显 示 创 建成 功 信 息 
def insert stu() : # 插 入 学 生 信息 


Cu = crx:cursor() 
stu id = input ("请 输入 学 生 学 号 : ") 
cu.execute ("select StuId from StudentTable where StuId =%s" %(stu id)) 
row = cu.fetchone() 
if row: 
print ("Sorry, 该 学 号 已 存在 ， 请 重新 输入 ") 


else: 


二 级 Python 和 须 逢 兹 击 


课 情况 查询 的 功能 。 
1. 学 生 信息 录入 模块 
代码 如 下 : 
import sqlite3 # 导 入 sqlite3 数据 库 接口 模块 
cx = sqlite3.connect ('D:/student .db') 井 连接 数据 库 student .db 


cx.execute( '''CREATE TABLE StudentTable( 间 创 建 StudentTable 表 


ID INTEGER PRIMARY KEYAUTOINCREMENT, 
StuId INTEGER NOT NULL, 
NAME TEXT NOT NULL, 
CLASS INT NOT NULL 
Re 
print ("Table created successfully!") # 显 示 创 建成 功 信息 
cx.execute('''CREATE TABLE CourseTable ( 间 创 建 CourseTable 表 
CourseId INT NOT NULL, 
Name TEXT NOT NULL, 
Teacher TEXT NOT NULL, 
Classroom TEXT NOT NULL, 
StartTime CHRR (11) NOT NULL, 
EndTime CHRR (11) NOT NULL 
和 
cu = cx.cursor() # 创 建 游标 对 象 
CourseTable = [('1', 'Qt', 'ming', 602, 'Monday9:00', 'Mondayl1:00'), 


C2 DIS "han 605 “Fridavli3:20"e "Fridavyia:200), 
('3', 'sqlite3', 'hah', 608, 'Thursday15:00', 'Thursday17:00'), 
] 


cu.executemany ("insert into CourseTable values(?, 2?, ?2, 2?, ?2, 2)", 


CourseTable) # 插 入 课程 信息 
cx.commit () 
print ("Table created successfully!") # 显 示 插 入 成 功 信 息 
cx.execute('''CREATE TABLE XuankeTable( # 创 建 XuankeTable 表 
ID INTEGER PRIMARY KEYAUTOINCREMENT, 
stuId INT NOT NULL, 
CourseId INT NOT NULL 
asoo) 
print ("Table created successfully") # 显 示 创 建成 功 信 息 
def insert stu() : # 插 入 学 生 信息 


Cu = crx:cursor() 
stu id = input ("请 输入 学 生 学 号 : ") 
cu.execute ("select StuId from StudentTable where StuId =%s" %(stu id)) 
row = cu.fetchone() 
if row: 
print ("Sorry, 该 学 号 已 存在 ， 请 重新 输入 ") 


else: 


执行 界面 如 图 7-2 所 示 。 


2. 学 生 选 课 模块 
代码 如 下 : 


请 输入 学 生 学 号 :001 
请 输入 学 生 姓 名 /ze 
请 输入 学 生 班级 

茶 喜 你 , 学生 录入 成 功 ! 


7-2 学生 信 息 录 入 界面 
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cu-execute (sql) 
row = cu.fetchone() 
if row: 
print ("该 课程 已 选 ， 不 能 重复 选课 ! ") 
Ls 
sql3 = "insert into XuankeTable (stuId,CourseId) values (%s,%s) 
"$s(stu id,cou id) 
cu.execute (sql3) 
cx.commit () 
print (" 恭 喜 你 ， 选 课 成 功 ! ") 
else 
print ("Sorry， 该 课程 不 存在 ! ") 
se 
print ("Sorry, 没有 该 学 生 号 ! ") 
cu.close() 


执行 界面 如 图 7-3 所 示 。 


请 输入 要 选课 的 学 生 学 号 :001 
CourseId = 1 

Jame = Qt 

Teacher = ming 

Classroom = 602 
StartTime = Monday9:00 
Endlime = Wondayll:00 


CourseId = 2 

Jame = Linux 

Teacher = han 
Classroom 605 
StartTime = Fridayl3:20 
Endlime = Fridayl4:20 


CourseId = 3 

Jame = sqlite3 

Teacher = hah 

Classroom 608 
StartTime Thur sday15:00 
Endlime = Thursdayl7:00 


请 输入 要 选 的 课程 号 是 :2 
茧 喜 你 ， 选 课 成 功 ! 


图 7-3 学 生 选课 界面 


3， 学 生 信 息 查询 和 选课 情况 查询 模块 
代码 如 下 : 


二 级 书 太 on 用 西 背 击 


执行 界面 如 图 7-4 所 示 。 


请 输入 要 查询 的 课程 号 :1 
您 要 查询 的 课程 信息 为 : 
CourseId = 1 

Jame = Qt 

Teacher = ming 
Classroom = 602 
StartTime = Monday9:00 
EndTime = Wondayll:00 


7-4 学 生 信 息 查 询 和 选课 情况 查询 界面 〈 按 课程 号 查看 课程 信息 ) 


4. 界面 设计 模块 
代码 如 下 : 


二 级 书 太 on 用 西 背 击 


执行 界面 如 图 7-5 所 示 。 


1. 进入 学 生 信 息 系 统 ‘学 生 信 息 录 入 》 

2. 进入 学 生 选 课 系 统 【 学 生 选 课 操作 ) 

3. 进入 学 生 选 课 信息 系统 《学 生 信息 查询 和 选课 情况 查询 》 
4 退出 程序 


请 输入 您 的 选择 菜单 号 


图 7-5 主 程序 菜单 运行 界面 


7.4 Python 访问 主流 数据 库 与 存储 文本 数据 
7.4.1 Python 访问 主流 数据 库 


1. Python DB-API 

Python 可 以 通过 数据 库 接口 直接 访问 各 种 类 型 的 数据 库 ， 这 个 数据 库 接口 被 称 为 
Python DB-API。DB-API 是 一 个 规范 ， 它 定义 了 一 系列 必需 的 对 象 和 数据 库存 取 方 式 ， 以 
便 为 各 种 各 样 的 底层 数据 库 系统 和 多 种 多 样 的 数据 库 接口 程序 提供 一 致 的 访问 接口 。 

2.【 例 7-1】 Python 连接 Oracle 数据 库 


代码 如 下 : 
pip install cx Oracle # 安 装 Oracle 数据 库 接口 模块 
import cx Oracle # 导 入 Oracle 数据 库 接口 模块 


# 连 接 数 据 库 , 参数 : 用 户 名 /密码 8 服务 器 ip :端口 号 /实例 名 

conn=cx Oracle.connect ('reporter', 'password','localhost:1521/0RCL') 
cursor=conn.cursor () # 创 建 游标 对 象 

# 执 行 SQL 

sql="select * from test" 


cursor.execute (sql) 


data=cursor. fetchall () # 获 得 查询 结果 

print (data) # 打 印 查询 结果 

Cursor .close() 

conn.commit () # 提 交 事 务 

conn.close() # 关 闭 数据 库 连 接 

3.【 例 7-2】 Python 连接 MySql 数据 库 

代码 如 下 : 

pip install pymysql # 安 装 MySsql 数据 库 接口 模块 
import pymysql # 导 入 MySql 数据 库 接口 模块 


连接 数据 库 ,host :服务 器 ip user: 用 户 名 password: 密码 database: 数据 库 名 


conn=pymysql .connect (host="'192.168.4.196', user="'root', password="'password', 
database='test"') 


cur=conn.cursor () # 创 建 游标 对 象 第 
# 执 行 SQL 7 
章 
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cur.execute ("insert into test py(id,user account) values('100','admin')") 


cur.execute ("update test py set user account = 'test6' where id='123'") 
conn.commit () # 提 交 事务 

# 执 行 SQL 

cur.execute ("select * from test py") 

row = cur.fetchall () # 获 得 查询 结果 

Print (row) # 打 印 查 询 结果 

conn.close() # 关 闭 数据 库 连 接 

4.【 例 7-3】 Python 连接 Sql server 数据 库 

代码 如 下 : 

pip install pymssql # 安 装 Sql server 数据 库 接口 模块 
import pymssql # 导 入 Sql server 数据 库 接口 模块 


# 连接 数据 库 , host :服务 器 ip\\ 实 例 名 user: 用 户 名 password: 密码 database: 数据 库 名 
conn=pymssql.connect (host="192.168.4.196\\amsys', user='sa', password= 
'123', database='test') 


cur = Conn.cursor() 井 创 建 游标 对 象 

# 执 行 SQL 

cur.execute ("insert into test py(id,user account) values('100861', 'admin')") 
cur.execute ("update test py set user account = 'test6' where id='123'") 
conn.commit () # 提 交 事 务 

# 执 行 SQL 

cur.execute ("select * from test py") 

row = cur.fetchall () # 获 得 查询 结果 

print (row) # 打 印 查询 结果 

conn.close() # 关 闭 数据 库 连接 

5.【 例 7-4】 Python 连接 MongoDB 数据 库 

代码 如 下 : 

pip install pymongo # 安 装 MongoDB 数据 库 接口 模块 

import pymongo # 导 入 MongoDB 数据 库 接口 模块 


# 调 用 PyMongo 库 里 面 的 Mongoclient， 传 入 MongoDB 的 IP 及 端口 ， 其 中 第 一 个 参数 为 地 址 
host， 第 二 个 参数 为 端口 port (如 果 不 给 它 传递 参数 ， 默 认 是 27017) 
client = pymongo.MongoClient (host='localhost', port=27017) 
db = client.test # 指 定数 据 库 
collection = db.students # 指 定 集合 ， 集 合 类 似 于 关系 型 数据 库 中 的 表 
collection = db['students'] 
# 新 建 一 条 学 生 数 据 ， 这 条 数据 以 字典 形式 表示 
student = { 
wad DOLNOLOL 
"name': 'Jordan', 
"age': 20, 
'gender': 'male' 
} 
# 插 入 数据 
result = collection.insert one (student) 


# 打 印 结果 
print (result) 


7.4.2 Python 存储 文本 数据 


对 于 已 有 的 大 量 文本 数据 ，Python 可 以 调用 MongoDB 进行 结构 化 的 存储 ， 比 如 将 一 
个 本 地 的 含有 大 量 文 本 的 txt 文档 ， 把 文本 内 容 全 部 读 取 ， 然 后 文本 数据 结构 化 ， 并 存储 


每 行 的 文字 数 。 
代码 如 下 : 
pip install pymongo ## 安 装 MongoDB 数据 库 接口 模块 
import pymongo # 导 入 MongoDB 数据 库 接口 模块 


# 获 取 本 地 端口 ， 激 活 Mongo 客户 端 
client = pymongo.MongoClient ('localhost',27017) 
mydata = client['mydata'] # 创 建 一 个 数据 库 
sheet tab one = mydata['sheet tab one']# 创 建 一 个 表 
# 处 理 一 个 本 地 的 含有 海量 文本 的 txt 文档 ， 把 文本 内 容 全 部 读 取 ， 然 后 文本 数据 结构 化 ， 并 存储 
每 行 的 文字 数 
#/Users/Cmucc/Bigdata/ 含 有 文本 内 容 的 文本 文件 .txt 
path = '/Users/Ccmucc/Bigdata/ 网 络 仆 虫 数据 .txt' 
with open (Path, 'r') as f: 
lines = f.readlines() 
for index,line in enumerate (lines): 
if len(line.split())>0 : 
data = { 
"index':index， 
'line':line, 
'words':len (line.split ()) 
} 
print (data) 
# 往 表 插入 数据 的 方法 为 insert_one， 会 不 清除 原 有 的 数据 ， 重 复 添 加 进去 
sheet tab one.insert one (data) 
# 展 示 数 据 库 中 的 数据 ， $1lt $lte $gt $gte $ne， 依 次 等 价 于 < <= > >= !=，1 表 示 less， 
g 表示 greater，e 表示 equal,n 表示 not 
for item in sheet tab one.find({'index':{'$1t':5}}): 
print (item) 


作为 一 款 通 用 的 极 强 的 程序 开发 语言 ， Python 支持 绝 大 多 数 的 主流 数据 库 接口 。 用 户 
可 以 根据 自己 的 项 目 需要 选择 合适 的 数据 库 ， 然 后 在 Python DB-API 中 下 载 安装 对 应 的 接 
口 插件 。Python 对 数据 库 的 访问 流程 大 致 如 下 : 首先 引入 数据 库 API 模块 ， 然 后 进行 数据 
库 连 接 ， 再 执行 SQL 语句 或 者 存储 过 程 ， 最 后 关闭 数据 库 连 接 。 通 过 本 章 的 学 习 ， 用 户 能 
够 基本 掌握 数据 库 、 结 构 化 查询 语言 (SQL) 及 SQLite 的 相关 知识 ， 并 能 够 开发 小 型 的 
Python 数据 库 应 用 项 目 。 
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导 学 

使 用 Python 进行 网 络 编程 ， 就 是 利用 Python 提供 的 网 络 通信 模块 ， 让 不 同 的 计算 机 
软件 能 够 进行 数据 传输 ， 即 进程 之 间 的 通信 。Python 提供 了 访问 底层 网 络 的 socket 接口 的 
全 部 方法 ， 利 用 socket 对 象 在 通信 的 双方 之 间 建 立 了 相互 传递 数据 的 管道 。 本 章 将 详细 介 
绍 Python 网 络 编程 的 概念 和 socket 程序 开发 流程 以 及 最 常用 的 两 种 通信 协议 TCP、UDP 
的 网 络 类 型 的 编程 ， 同 时 介绍 多 线程 编程 的 基本 思想 和 线程 同步 的 方法 。 

了 解 : 网 络 协议 、 客 户 端 /服务 器 架构 、socket、 基 本 的 网 络 基础 知识 、 多 线程 基本 
掌握 : socket 编程 方法 、TCP 和 UDP 编程 、 多 线程 创建 、 多 线程 并 发 控制 。 
利用 Python 进行 网 络 和 多 线程 编程 ， 不 用 深入 理解 复杂 的 网 络 协议 原理 和 多 线程 技 
术 ， 简 化 了 程序 的 开发 步 又， 大 大 提高 了 开发 效率 。 


8.1 网 络 编程 基础 


8.1.1 客户 端 /服务 器 


服务 器 可 以 向 一 个 或 多 个 客户 端 提 供 所 需要 的 “服务 ”。 服 务 器 等 待 客户 的 请 求 ， 给 
这 些 客户 服务 ， 然 后 再 等 待 其 他 的 请 求 。 如 Web 服务 器 存放 一 些 网 页 或 Web 应 用 程序 ， 
启动 服务 等 待 客户 端 请 求 , 把 网 页 发 给 客户 端的 浏览 器 。 服 务 器 再 等 待 下 一 个 客户 端 请 求 ， 
如 果 没 有 关机 或 外 界 的 干扰 服务 器 可 以 长 时 间 稳定 地 运行 。 男 一 方面 ， 客 户 端 可 以 连 上 一 
个 服务 器 ， 提 出 自己 的 请 求 ， 发 送 必 要 的 数据 ， 然 后 等 待 服务 器 的 完成 请 求 或 说 明 失败 原 
因 的 反馈 。 服务 器 可 以 不 停 地 处 理 客户 端的 请 求 , 而 客户 端 一 次 只 能 提出 一 个 服务 的 请 求 ， 
等 待 结果 。 只 有 结束 一 个 请 求 处 理 后 ， 客 户 端 才 可 以 再 提出 其 他 的 请 求 ， 只 是 这 个 请 求 会 
被 视 为 另 一 个 不 同 的 事务 了 。 网 络 编程 正 是 基于 客户 端 /服务 器 模型 应 用 ， 如 图 8-1 所 示 。 


8.1.2 IP 协议 


在 互联 网 上 进行 网 页 浏览 、QQ 聊天 、 收 发 邮件 等 都 需要 不 同 主机 间 的 通信 。 通 信 的 
双方 必须 要 知道 对 方 的 网 络 标识 。 在 互联 网 中 利用 他 地址 可 以 唯一 标识 每 台 联 网 的 主机 。 
卫 地 址 是 PP 协议 提供 的 一 种 统一 的 地 址 格式 ， 它 为 互联 网 上 的 每 一 个 网 络 和 每 一 台 主 机 
分 配 一 个 逻辑 地 址 ， 以 此 来 屏蔽 物理 地 址 的 差异 。 常 见 的 人 P 地 址 ， 分 为 IPv4 与 IPv6 两 
大 类 。 


图 8-1 客户 端 /服务 器 示意 图 


IPv4 中 规定 人 P 地 址 长 度 为 32 位 ， 一 般 的 写法 为 4 个 用 小 数 点 分 开 的 十 进 制 数 ， 如 
192.168.100.10。 

IPv6 是 用 于 替代 现行 的 IPv4 下 一 代 下 协议 。IPvV6 地 址 为 128 位 长 ， 通 常 写作 8 组 ， 
每 组 为 四 个 十 六 进 制 数 的 形式 ， 如 FE80:0000:0000:0000:AAAA:0000:00C2:0002。 

卫 协议 通过 网 络 在 不 同 的 主机 间 进 行 数据 传输 。 数据 被 分 割 很 多 数据 包 的 形式 , IP 协 
议 规定 了 数据 传输 时 的 基本 单元 和 格式 ， 还 定义 了 数据 包 的 递交 办 法 和 路 由 选择 。 


8.1.3 TCP 和 UDP 协议 


TCP〔 传 输 控制 协议 ) 是 基于 他 协议 上 的 面向 连接 的 协议 ， 也 就 是 说 在 和 对 方 通信 正 
式 收 发 数据 前 必须 和 对 方 建立 可 靠 的 连接 ， 保 证 数据 包 按 顺序 到 达 。 对 可 靠 性 要 求 高 的 数 
据 通信 系统 往往 使 用 TCP 协议 ， 如 FTP (文件 传输 协议 )、HTTP 浏览 器 的 协议 ) 等 。 

UDP 协议 是 面向 非 连 接 的 通信 协议 , 不 必 与 对 方 先 建立 连接 ,不 管 对 方 状态 直接 发 送 
数据 ， 也 不 能 保证 数据 包 能 否 正确 到 达 ， 但 通信 效率 比 TCP 高 。 如 QQ 就 使 用 UDP 发 送 
消息 ， 因 此 有 时 会 出 现 接收 不 到 消息 的 情况 。 


8.1.4 端口 


一 台 拥 有 了 IP 地 址 的 主机 可 以 运行 许多 网 络 程序 ， 如 浏览 器 、 电 子 邮 件 等 ， 这些 程序 完 
全 可 以 通过 一 个 也 地址 来 访问 。 外 部 计算 机 主机 需要 区 分 不 同 网 络 程序 , 就 通过 端口 号 来 
进行 标识 。 端 口号 相当 于 每 个 程序 的 门牌 号 。 每 个 网 络 程序 都 向 操作 系统 申请 唯一 的 端口 
号 ,两 个 进程 在 两 台 计算 机 之 间 建 立 网 络 连接 就 需要 各 自 的 卫 地 址 和 各 自 的 端口 号 。 端 口 
号 按照 一 定 的 规则 进行 分 配 。 

系统 保留 端口 (从 0 到 1023): 这 些 端口 都 有 确切 的 定义 ， 对 应 着 因特网 上 常见 的 一 
些 服务 ， 例 如 80 端口 就 代表 Web 服务 、21 对 应 着 FTP、25 对 应 着 SMTP 简单 邮件 传输 
协议 )、110 对 应 着 POP3 (下 载 电 子 邮 件 的 电子 协议 ) 等 。 

动态 端口 (从 1024 到 65535): 这 些 端口 一 般 不 固定 分 配 某 种 服务 ， 当 系统 程序 或 应 
用 程序 需要 网 络 通 信 时 ， 主 机 从 可 用 的 端口 号 中 分 配 一 个 供 它 使 用 。 当 程序 关闭 ， 同 时 也 
释放 占用 的 端口 号 。 


8.1.5 socket 
socket 通常 也 称 作 “ 套 接 字 ”， 是 应 用 层 与 TCP/IP 协议 族 通 信 的 中 间 软 件 抽象 层 ， 它 
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是 一 组 接口 ， 以 使 不 同 主机 或 同一 主机 上 的 不 同 进程 进行 通信 。 它 把 复杂 的 TCP/IP 协议 
族 隐 藏 在 socket 接口 后 面 ， 对 用 户 来 说 无 须 深入 理解 TCP 和 UDP 协议 ，socket 已 经 封装 
好 了 ， 用 户 只 需要 遵循 socket 的 规定 去 编写 程序 ， 就 可 以 实现 网 络 通信 功能 。socket 抽象 
层 在 网 络 模型 中 的 功能 如 图 8-2 所 示 。 


1 1 
| 用 户 进程 | ! 应 用 层 
人 | 

运输 层 
1 1 
| ICMP ”上 IP IGMP | 网 络 层 
ee 岗 贡 el 
| 2 | pA 
! ARP ”四 硬件 接口 + RARP | 链 路 层 
人 SEE 由 

图 8-2 socket 抽象 层 在 网 络 模型 中 的 功能 
通常 用 一 个 socket 表示 打开 一 个 网 络 链接 ， 指 定 通信 协议 的 类 型 是 TCP 还 是 UDP。 


在 Python 中 ，socket 模块 中 的 socket 0 函数 被 用 来 创建 套 接 字 。 语 法 如 下 : 

socket (socket family, socket typel[l, protocol]) 

(1) family: 套 接 字 家 族 ， 可 以 使 用 AF_UNIX 或 者 AF_INET， 参 见 表 8-1。 

(2) type: 根据 是 面向 连接 的 还 是 非 连接 ， 套 接 字 类 型 可 以 分 为 SOCK_STREAM 或 
SOCK_DGRAM， 人 参见 表 8-2。 

(3) protocol: 一 般 不 填 ， 默 认为 0。 


表 8-1 family 常用 参数 


Family 参数 描述 
socketAF UNIX 只 能 够 用 于 单一 的 UNIX 系统 进程 间 通 信 
socket.AF INET 服务 器 之 间 网 络 通信 


socket.AF INET6 IPv6 


Type 参数 


表 8-2 type 常用 参数 


描述 


socket.SOCK_ STREAM 
socket.SOCK DGRAM 
socket.SOCK RAW 


socket.SOCK SEQPACKET 


1. 创建 TCP 的 


import socket 


流 式 socket， 当 使 用 TCP 时 选择 此 参数 

数据 报 式 socket， 当 使 用 UDP 时 选择 此 参数 
原始 套 接 字 ， 普 通 的 套 接 字 无 法 处 理 ICMP、IGMP 等 网 络 报 文 ， 而 
SOCK RAW 可 以 :其 次 ,SOCK RAW 也 可 以 处 理 特 殊 的 IPv4 报 文 ; 
此 外 ， 利 用 原始 套 接 字 ， 通 过 人 P_HDRINCL 套 接 字 选项 由 用 户 构造 


卫 头 


socket 


可 靠 的 连续 数据 包 服 务 


S=socket .socket (socket .AF INET, Socket.SOCK STREAM) 


TCP 类 型 套 接 字 socket 在 通信 和 前 需要 建立 连接 ， 这 种 连接 是 较为 可 靠 的 。 图 8-3 为 面 


向 连接 TCP 时 序 图 。 


socket()， 建 立 套 接 字 ， 
返回 套 接 字 s 


bind() 套 接 字 s 与 
本 机 地 址 相连 


1 


listen()， 通 知 TCP 服 务 器 
准备 好 氨 收 连接 ts 
了 
accept()， 接 收 连接 ， socket()， 建 立 套 接 字 ， 
等 待 客户 端 连接 返回 套 接 字 s 
L | 


建立 连接 ，acceptO) 返 回 ， 
得 到 新 的 套 接 字 如 ns 


connect0)， 将 套 接 字 s 与 
远 地 服 务 器 连接 


| 


了 
recv()/send()， 读 / 写 recv()/send()， 读 / 写 
数据 直到 交换 完成 数据 直到 交换 完成 
| | 


closeSocket(), xm 


closeSocket()， 关 闭 僚 接 字 s| 
结束 TCP 对 话 


closeSocket()， 关 闭 最 初 的 


套 接 字 s， 服 务 结 


8-3 面向 连接 的 TCP 时 序 图 
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服务 器 和 客户 端 建立 通信 过 程 需要 服务 器 端 先 调用 socket() 建 立 一 个 套 接 字 socket 进 
行 初始 化 ， 然 后 利用 bind0 与 本 机 指定 的 端口 绑 定 ， 调 用 listen0 对 端口 进行 监听 处 于 准备 
接收 连接 状态 , 在 这 时 如 果 有 个 客户 端 初始 化 一 个 socket,， 可 以 调用 connect0 连 接 服务 器 ， 
服务 器 调用 accept0 接 收 用 户 连接 , 客户 端 与 服务 器 的 连接 就 建立 了 。 客 户 端 发 送 数据 请 求 ， 
服务 器 接收 、 处 理 请 求 , 然后 把 回应 数据 发 送 给 客户 端 。 客户 端 读 取 数 据 , 最 后 调用 close() 
关闭 连接 ， 一 次 交互 结束 。 服 务 器 在 连接 一 个 客户 端的 同时 可 以 继续 监听 指定 端口 ， 并 发 
出 阻塞 ， 直 到 下 一 个 请 求 出 现 ， 从 而 实现 多 个 客户 机 连接 。 

2. 创建 UDP 的 socket 


import socket 
SsS=socket .socket (socket .AF INET, Socket .SOCK DGRAM) 


UDP 类 型 的 套 接 字 ， 无 须 连 接 ， 只 需要 知道 对 方 的 他 地址 和 端口 号 就 可 以 进行 通信 ， 
速度 较 快 ， 但 是 可 靠 性 不 高 。 而 且 数 据 是 整个 发 送 ， 不 会 分 成 小 块 。 图 8-4 为 无 连接 UDP 


时 序 图 。 
及 务 器 客户 端 
1 
socket (), 建 立 套 接 字 ， socket (), 建 立 套 接 字 ， 
返回 套 接 字 s 返回 套 接 字 s 
=< 人 SS 
bind (), 套 接 字 s 与 本 机 地 址 相连 [ee-…----…--…- bind (), 指 定 服务 器 地 址 
本 | 
recvFrom ()/sendTo (), 读 / 写 数据 recvFrom ()/ sendTo (), 读 / 写 数 据 
直到 交换 完成 直到 交换 完成 
1 时 
closeSocket (), 关 闭 套 接 字 closeSocket (), 关 闭 套 接 字 


图 8-4 无 连接 的 UDP 时 序 图 


UDP 是 无 连接 的 ， 先 启动 哪 一 端 都 不 会 报错 ， 也 不 需要 监听 ， 只 需要 用 bind0 绑 定 对 
方 的 人 地 址 和 端口 号 (在 图 8-4 中 用 虚线 表示 )， 就 可 以 直接 发 送 数据 。 客 户 端 仅 调 用 
sendTo0 就 给 服务 器 发 送 数据 。 服 务 器 也 只 是 调用 reciveFrom() 等 待 和 接收 客户 端 发 来 的 数 
据 ， 调 用 sendTo0 给 客户 端 发 送 应 答 。 

Python 中 常用 的 服务 器 端的 socket 对 象 函数 如 表 8-3 所 示 。 


表 8-3 ”服务 器 端的 socket 函数 


函数 描述 

s.bind(address) 将 套 接 字 绑 定 到 地 址 ， 在 AF_INET 下 ， 以 元 组 (host，port) 的 形式 表示 地 址 

s.listen(backlog) 开始 监听 TCP 传 入 连接 。backlog 指定 在 拒绝 连接 之 前 ， 操 作 系 统 可 以 挂 起 的 
最 大 连接 数量 ， 该 值 至 少 为 1， 大 部 分 应 用 程序 设 为 5 即 可 

s.accept() 接受 TCP 连接 并 返回 (conn，address)， 其 中 conn 是 新 的 套 接 字 对 象 ， 可 以 用 


来 接收 和 发 送 数据 ，address 是 连接 客户 端的 地 址 


Python 中 常用 客户 端的 socket 对 象 函数 如 表 8-4 所 示 。 
表 8-4 客户 端的 socket 函数 


函数 描述 

s.connect(address) 连接 到 address 处 的 套 接 字 。 一般 address 的 格式 为 元 组 (hostname， 
port)， 如 果 连 接 出 错 ， 返 回 socket.error 错误 

s.connect_ex(adddress) 功能 与 connect(address) 相 同 , 但 是 成 功 返 回 0, 失败 返回 ermo 的 值 ， 
而 不 是 抛 出 异常 


Python 中 常用 的 公共 socket 对 象 函数 如 表 8-5 所 示 。 
表 8-5 公共 socket 函数 


函数 描述 

s.recv(bufsize[,flag]) 接受 TCP 套 接 字 的 数据 ， 数 据 以 字符 串 形式 返回 。bufsize 指定 要 
接收 的 最 大 数据 量 ，flag 提供 有 关 消 息 的 其 他 信息 ， 通 常 可 以 

s.send(string[,flag]) 发 送 TCP 数据 。 将 string 中 的 数据 发 送 到 连接 的 套 接 字 。 返 回 值 
是 要 发 送 的 字 节 数量 ， 该 数量 可 能 小 于 string 的 字 节 大 小 

s.sendall(string[,flag]) 完整 发 送 TCP 数据 。 将 string 中 的 数据 发 送 到 连接 的 套 接 字 ， 但 在 
返回 之 前 会 尝试 发 送 所 有 数据 。 成 功 返回 None， 失 败 则 抛 出 异常 

s.recvfrom(bufsize[.flag]) 接受 UDP 套 接 字 的 数据 。 与 recv0 类 似 ， 但 返回 值 是 (data， 
address)。 其 中 data 是 包含 接收 数据 的 字符 串 ，address 是 发 送 数 
据 的 套 接 字 地 址 

s.sendto(string[,flag],address) 发 送 UDP 数据 。 将 数据 发 送 到 套 接 字 ，address 是 形式 为 (ipaddr， 
port) 的 元 组 ， 指 定 远程 地 址 。 返 回 值 是 发 送 的 字 节 数 

s.close0) 关闭 套 接 字 

s.getpeername() 返回 连接 套 接 字 的 远程 地 址 。 返 回 值 通 常 是 元 组 (ipaddr，port) 

s.getsockname() 返回 套 接 字 自己 的 地 址 。 通 常 是 一 个 元 组 (ipaddr，port) 


s.setsockopt(level,optname,value) 设置 给 定 套 接 字 选项 的 值 

s.getsockopt(level,optname[.buflen]) ”返回 套 接 字 选项 的 值 

s.settimeout(timeout) 设置 套 接 字 操 作 的 超时 期 ，timeout 是 一 个 浮 点 数 ， 单 位 是 秒 。 值 
为 None 表示 没有 超时 期 . 一 般 , 超时 期 应 该 在 刚 创建 套 接 字 时 设 
置 ， 因 为 它们 可 能 用 于 连接 的 操作 (如 connectO) 


s.gettimeoutO) 返回 当前 超时 期 的 值 ， 单 位 是 秒 ， 如 果 没 有 设置 超时 期 ， 则 返回 
None 
s.fileno0 返回 套 接 字 的 文件 描述 符 
s.setblocking(flag) 如 果 flag 为 0， 则 将 套 接 字 设 为 非 阻 塞 模式 ， 否 则 将 套 接 字 设 为 
阻塞 模式 〈 默 认 值 )。 非 阻塞 模式 下 ， 如 果 调用 recv0 没 有 发 现任 
何 数据 , 或 sendO0 调 用 无 法 立即 发 送 数据 , 那么 将 引起 socket.error 
异常 
s.makefileO 创建 一 个 与 该 套 接 字 相关 联 的 文件 8 
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8.2 TCP 编程 


在 网 络 通信 应 用 程序 中 很 多 连接 都 是 应 用 可 靠 的 TCP 连接 ， 如 文件 传送 协议 FTP、 远 
程 登录 TELNET、 电 子 邮 件 SMTP、 POP3、 网 络 协议 HTTP 等 。 创 建 TCP 连接 时 ， 主 动 
发 起 连接 的 是 客户 端 ， 被 动 响应 连接 的 是 服务 器 。 


8.2.1 TCP 客户 端 编程 


当 用 户 使 用 浏览 器 访问 网 页 时 ， 用 户 的 计算 机 就 是 客户 端 ， 用 户 的 浏览 器 向 网 页 的 服 
务 器 主动 发 起 连接 ， 如 果 网 页 所 在 的 服务 器 响应 了 连接 要 求 ， 就 建立 了 一 个 TCP 连接 。 以 
后 通信 的 内 容 就 是 发 送 网 页 。 

【 例 8-1】 访问 百度 首页 的 TCP 客户 端 程序 。 

获取 百度 首页 客户 ， 代 码 如 下 : 


import socket # 导 入 socket 模块 
Ss=socket .socket (socket .AF INET, socket .SOCK STREAM) # 创 建 一 个 socket 
s.connect (('www.baidu.com', 80)) # 建 立 与 百度 的 连接 
# 发 送 数 据 请 求 
s.send(b'GET / HTTP/1.1\r\nHost: www.baidu.com\r\nConnection:close\r\n\r\n') 
# 接 收 数据 
buffer=[] 
while True: 
d=s.recv (1024) # 每 次 最 多 接收 服务 器 端 1kB 数据 
ds # 判 断 是 否 为 空 数据 
buffer.append (d) # 将 从 服务 器 得 到 的 数据 追加 到 列表 中 
else: 
break # 返 回 空 数据 ， 表 示 接 收 完毕 
s.close() # 关 闭 连接 
data=b'' .join(buffer) 
header, html=data.split (b'\r\n\r\n',1) # 将 网 页 中 HTTP 头 部 和 网 页 内 容 分 离 
print (header.decode ('utf-8') ) # 将 网 页 中 HTTP 头 部 信息 输出 


# 把 接收 网 页 内 容 写 入 baidu .html 文件 中 
with open('baidu.html', 'wb') as f: 
f.write (html) 


客户 端 程序 打印 出 了 百度 首页 HTTP 头 部 信息 〈 部 分 内 容 )， 运 行 结果 如 下 : 


RETR/Te1 200. OK 

Accept-Ranges: bytes 

Cache-Control: no-cache 

Content-Length: 14615 

Content-Type: text/html 

Date: Fri, 18 May 2018 02:40:29 GMT 
Last-Modified: Fri, 11 May 2018 09:27:00 GMT 


P3p: CP=" OTI DSP COR IVR OUR IND COM " 
Pragma: no-cache 

Server: BWS/1.1 

TCP 客户 端的 socket 连接 编程 流程 如 下 : 

(1) 创建 套 接 字 


Socket .socket (socket .AF INET,socket.SOCK STREAM) 


AF INET 指定 使 用 IPv4 地 址 ，SOCK_STREAM 指定 使 用 面向 流 的 TCP 协议 。 
(2) 连接 远 端 地 址 


s.connect (('www.baidu.com',80)) 


创建 套 接 字 对 象 后 ， 客 户 端 要 主动 发 起 TCP 连接 需要 知道 百度 服务 器 的 IP 地 址 和 端 
口号 。 百 度 网 的 下 地址 可 以 通过 域名 www.baidu.com 自动 转换 得 到 。 端 口 80 是 Web 服务 
器 的 标准 端口 ， 直 接 使 用 即 可 。connect0 函 数 的 参数 是 一 个 元 组 ， 包 含 地 址 和 端口 号 。 

(3) 连接 后 向 服务 器 发 送 请 求 ， 要 求 返 回首 页 的 内 容 数 据 

s.send(b'GET / HTTP/1.1\r\nHost: www.baidu.com\r\nConnection:close\r\n\r\n') 

HTTP 协议 规定 客户 端 必须 先 发 请 求 给 服务 器 , 服务 器 收 到 后 才能 给 客户 端 发 送 数据 。 

b"GET / HTTP/1.1\rnHost: localhostrmm" 是 一 个 遵守 http 协议 标准 请 求 格式 的 数 
据 包 ， 字 符 串 前 加 一 个 b， 表 示 字 符 串 将 以 字 节 的 方式 输出 。 

(4) 从 服务 器 接收 数据 

recv(max)， 指 - 下 字 节 数 ， 数 据 以 字符 串 形 式 返 回 。 通 过 while 循 
环 反复 接收 ， 直 到 recv0 返 回 空 ， 表 示 接 收 完毕 。 

(5) 传输 完毕 后 ， 关闭 套 接 字 

s.close() 

(6) 对 数据 的 处 理 

data = b''.join (buffer) 

这 人 句 语句 的 意思 就 是 使 用 空 字 节 把 buffer 这 个 字 节 列表 连接 在 一 起 , 成 为 一 个 新 的 字 


节 串 。b" 是 一 个 空 字 节 ，join 是 连接 列表 的 函数 。 例 如 : b"join([b'ab',b'cd',b'ef]) 转 换 后 为 
babcdef 。buffer 是 一 个 不 断 接收 到 的 串 的 列表 。 


header, html=data.split (b'\r\n\r\n',1) 


接收 到 的 数据 包括 HITP 头 和 网 页 本 身 ， 需 要 将 HTTP 的 头 部 和 网 页 分 离 ， 以 woman' 
分 割 ， 只 分 割 一 次 。 


print (header.decode ('utf-8')) 
decode ("'utf-8') 以 utf-8 编码 将 字 节 串 转 换 成 字符 串 。 第 
with open('baidu.html', 'wb') as f: 
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f.write (html) 

以 写 的 方式 打开 文件 baidu.html'， 写 入 信息 。 
8.2.2 TCP 服务 器 端 编程 

服务 器 端 编程 和 客户 端 编程 相 比 ， 要 复杂 一 些 。 服 务 器 进程 要 绑 定 一 个 端口 并 监听 来 
自 客户 端的 连接 。 如 果 服 务 器 连接 了 某 个 客户 端 ， 就 是 与 该 客户 端 建立 socket 连接 。 

【 例 8-2】 编写 一 个 简单 的 TCP 服务 程序 ， 它 接收 客户 端 连接 ， 把 从 客户 端 输入 的 一 
行 字符 串 转换 为 大 写 ， 再 发 送 回 客户 端 。 

完整 的 TCP 服务 器 端 程序 ， 代 码 如 下 : 


import socket 


import time 导入 时 间 模 块 
def TCP(sock，adqr) : #TCP 服务 器 端 处 理 逻 辑 
print (' 接 收 一 个 来 自 %s:%s 连接 请 求 .' % addr) # 接 受 新 的 连接 请 求 
while True: 
data = sock.recv(1024) 坦 接 收 其 数据 
time.sleep(1) # 延 迟 
if not data or data.decode () == 'quit':# 如 果 数 据 为 空 或 者 'quit' ,退出 
break 
sock.send (data.decode ('utf-8') .upper () .encode () ) 间 发 送 变 成 大 写 后 的 数据 
sock.close () #4 关闭 连接 


print ('" 来 自 %ss:$%s 连接 关闭 了 .' % addr) 


s = socket.socket (socket.AF INET, socket.SOCK STREAM)# 创建 socket 
s.bind(('127.0.0.1', 10022)) # 绑 定 本 机 IP 和 任意 端口 (>1024) 


s.listen(1) # 监 听 ， 等 待 连接 的 最 大 数目 为 1 
Print (' 服 务 器 正在 运行 …' ) 
while True: 

sock, addr = s.accept() # 接 收 一 个 新 连接 

TCP (sock, addr) # 处 理 连接 函数 


TCP 服务 器 的 socket 连接 编程 流程 如 下 : 
(1) 创建 基于 IPv4 和 TCP 协议 的 套 接 字 


socket .socket (socket .AF INET,socket .SOCK STREAM) 
(2) 绑 定 套 接 字 到 本 地 人 P 与 端口 
sbinat( li270.02 1 L0022)D 


127.0.0.1 是 一 个 特殊 的 他 地 址 ， 表 示 本 机 。 如 果 绑 定 到 这 个 地 址 ， 客 户 端 也 必须 同时 
在 本 机 运行 才 有 效 。 
绑 定 卫 地 址 的 同时 还 要 绑 定 端口 号 , 由 于 本 程序 的 服务 不 是 标准 服务 , 可 以 任意 选用 


大 于 1024 并 小 于 等 于 65535 之 间 的 整数 ， 作 为 端口 。 
(3) 开始 监听 连接 


s.listen(1) 


sisten(D) 中 的 参数 1 表示 制定 等 待 连接 的 最 大 数量 为 1， 只 能 和 一 个 客户 端 通信 。 如 
果 参 数 大 于 1， 则 表示 可 以 连接 多 个 客户 端 
(4) 进入 循环 ， 不 断 接受 客户 端的 连接 请 求 


while True: 
sock, addr = S.accept() 
TCP (sock, addr) 


服务 器 程序 通过 一 个 无 限 循环 来 接收 客户 端的 连接 ，accept0 会 等 待 并 接收 连接 ,返回 
结果 为 (conn，address) 形式 ， 其 中 conn 是 新 的 套 接 字 对 象 ， 可 以 用 来 接收 和 发 送 数据 ， 
address 是 连接 客户 端的 地 址 。 
(5) 接收 传 来 的 数据 ， 并 发 送 给 对 方 数据 
def TCP (sock，addr) : 
print (' 接 收 一 个 来 自 $s:$s 连接 请 求 .' % addr) 
while True: 
data = sock.recv(1024) 
time.sleep (1) 
if not data or data.decode() == 'quit': 
break 
sock.send (data.decode ('utf-8') .upper() .encode()) 


Sock.close () 


Print(" 来 自 ss:g%s 连接 关闭 了 .' % adqdr) 


TCPO 是 自 定义 函数 ， 用 来 接收 和 发 送 数据 。 连 接 建 立 后 ， 服 务 器 先 发 送 一 条 欢迎 消 
息 ， 然 后 接收 客户 端 传 来 的 字符 串 ， 将 小 写字 母 转换 为 大 写字 母后 再 发 送 给 客户 端 。 如 果 
客户 端 发 送 的 是 quit， 就 直接 关闭 连接 。 

发 送 的 数据 data 需 先 解码 ， 再 按 utf-8 编码 ，encode( 其 实 就 是 encode(utf-8)。 

(6) 传输 完毕 后 ， 关 闭 套 接 字 


s.close() 


为 了 测试 这 个 服务 器 程序 ， 还 要 编写 一 个 客户 端 程序 。 客 户 端 从 其 套 接 字 中 读 取 修改 
后 的 字符 串 ， 然 后 将 该 行 在 其 标准 输出 (监视 器 ) 上 打印 出 来 ， 代 码 如 下 : 


import socket 
s = socket.socket (socket.AF INET, socket.SOCK STREAM) # 创 建 一 个 socket 


s.connect (('127.0.0.1', 10022)) 塌 建 立 连接 

while True: 井 接受 多 次 数据 
data = input (' 请 输入 要 发 送 的 数据 : ') 井 接 收 数据 
人 坦 如 果 为 'quit'… 则 退出 8 
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break 
s.send(data.encode ()) # 发 送 编码 后 的 数据 
print (s.recv(1024) .decode ("utf-8')) 井 打印 接收 到 的 大 写 数据 
s.send(b'quit') 放弃 连接 
s.close() # 关 闭 socket 
打开 两 个 程序 窗口 ， 一 个 运行 TCP 服务 器 端 程序 ， 另 一 个 运行 TCP 客户 端 程序 ， 就 
可 以 看 到 如 下 效果 。 
服务 器 端 程序 运行 结果 : 
服务 器 正在 运行 … 


接收 一 个 来 自 127.0.0.1:51307 连接 请 求 . 
来 自 127.0.0.1:51307 连接 关闭 了 . 


客户 端 程序 运行 结果 : 


请 输入 要 发 送 的 数据 : intelligent medicine committee!!!! 
INTELLIGENT MEDICINE COMMITTEE!!!! 
请 输入 要 发 送 的 数据 : quit 


注意 : 客户 端 程序 运行 结束 后 就 会 退出 ， 而 服务 器 程序 如 果 没 有 外 界 干预 会 永远 运行 
下 去 ， 必 须 按 Ctrl+C 组 合 键 退出 程序 。 同 一 个 端口 被 一 个 socket 绑 定 以 后 ， 就 不 能 被 其 他 
的 socket 绑 定 。 


8.3 UDP 编程 


使 用 UDP 协议 时 ， 不 需要 建立 连接 ， 每 个 数据 报 都 是 一 个 独立 的 信息 ， 只 需要 知道 
对 方 的 也 地 址 和 端口 号 , 就 可 以 直接 发 数据 包 。 但 能 否 到 达 目 的 地 ， 到 达 目 的 地 的 时 间 以 
及 内 容 的 正确 性 都 是 不 能 被 保证 的 。 虽然 用 UDP 传输 数据 不 可 靠 ， 但 它 的 优点 是 和 TCP 
比 速度 快 ， 对 于 不 要 求 可 靠 到 达 的 数据 ， 就 可 以 使 用 UDP 协议 。 

【 例 8-3】 编写 一 个 应 用 UDP 协议 实现 的 服务 器 和 客户 端 通信 程序 ， 完 成 例 8-2 同样 
的 功能 ， 服 务 器 把 从 客户 端 输入 的 一 行 字符 串 转换 为 大 写 ， 再 发 送 回 客户 端 。 服 务 器 端的 
代码 如 下 : 


import socket 
s = socket.socket (socket.AF INET, socket.SOCK DGRAM) # 创 建 一 个 socket 
tte No et en) # 绑 定 IP 地 址 及 端口 


创建 socket 时 ，SOCK_DGRAM 参数 制定 了 socket 的 类 型 是 UDP。 只 需要 绑 定 卫 地 
址 和 端口 ， 不 需要 进行 端口 的 监听 ， 直 接 接 收 来 自 于 客户 端的 数据 。 


Print(' 绑 定 UDP 在 10021 端口 …') 
while True: 
# 获 得 数据 和 客户 端的 地 址 与 端口 ,一 次 最 大 接收 1K 字 节 


data, addr = s.recvfrom(1024) 


print (' 接 收 ss:ss 的 数据 .' % adqdr) 
s.sendto (data.decode ('utf-8') .upper () .encode () , addr) # 将 数据 变 成 大 写 送 回 客户 端 
recvfrom() 与 recv0 类 似 , 但 返回 值 是 (data，address)。 其 中 data 是 包含 接收 数据 的 字 
符 串 ，address 是 发 送 数据 的 套 接 字 地 址 。 
客户 端的 UDP 程序 代码 如 下 : 


import socket 
5 = socket.socket (socket.AF INET, Socket.SOCK DGRAM) 


addr = ('127.0.0.1', 10021) # 服 务 器 端 地 址 
while True: 
data = input (' 请 输入 要 处 理 的 数据 :' ) # 获 得 数据 
if not data or data == 'quit': 
break 
s.sendto(data.encode(), addr) # 发 送 到 服务 端 
recvdata, addr = s.recvfrom(1024) # 接 收服 务 器 端 发 来 的 数据 
print (recvdata.decode ('utf-8')) # 解 码 打 印 
s.close() # 关 闭 Socket 


客户 端的 UDP 通信 程序 ， 先 要 创建 基于 UDP 的 socket, 但 不 需要 和 服务 器 建立 连接 ， 
直接 通过 sendto0 给 服务 器 发 送 程序 。 从 服务 器 接收 数据 也 使 用 recvfrom() 方 法 。 

打开 两 个 程序 窗口 ， 一 个 运行 UDP 服务 器 端 程序 ， 另 一 个 运行 UDP 客户 端 程序 ， 就 
可 以 看 到 如 下 效果 。 

服务 器 端 程序 运行 结果 : 

绑 定 UDP 在 10021 端口 … 

接收 127.0.0.1:50348 的 数据 . 


客户 端 程序 运行 结果 : 


请 输入 要 处 理 的 数据 :intelligent medicine committee!!! 
INTELLIGENT MEDICINE COMMITTEE!!! 
请 输入 要 处 理 的 数据 :quit 


Process finished with exit code 0 


8.4 多 线程 编程 


线程 是 被 操作 系统 独立 调度 的 基本 单位 ， 程 序 可 以 拆 分 成 多 个 并 发 运行 的 线程 ， 即 线 
程 提供 了 多 任务 处 理 的 能 力 。 进 程 是 操作 系统 分 配 资源 的 最 小 单元 ， 线 程 是 操作 系统 调度 
的 最 小 单元 。 现 在 的 大 型 应 用 软件 基本 都 是 多 线程 多 任务 处 理 ， 掌 握 多 线程 多 任务 设计 方 
法 对 提高 软件 的 并 行 性 有 着 重要 的 意义 。 
8.4.1 进程 和 线程 


1. 概念 
现代 操作 系统 都 是 支持 “多 任务 ”的 操作 系统 。 多 任务 就 是 操作 系统 可 以 同时 运行 多 | 8 
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个 任务 。 例 如 ， 用 户 在 用 浏览 器 上 网 的 同时 还 在 使 用 QQ 聊天 ， 可 能 还 运行 着 音乐 播放 器 
程序 听 MP3。 这 样 ， 在 计算 机 上 至 少 同时 有 3 个 任务 正在 运行 。 还 有 很 多 任务 在 后 台 同 时 
运行 着 。 这 种 多 任务 形式 不 仅 运行 在 多 核 CPU 上 ， 单 核 CPU 通过 操作 系统 轮流 让 各 个 任 
务 快 速 交 蔡 执行 ， 也 让 人 产生 所 有 任务 都 在 同时 执行 一 样 的 感觉 。 

对 于 操作 系统 来 说 ， 一 个 任务 就 是 一 个 进程 (Process)， 进 程 是 操作 系统 中 正在 执行 
的 应 用 程序 的 一 个 实例 。 比 如 打开 一 个 浏览 器 就 是 启动 一 个 浏览 器 进程 ， 打 开 一 个 Word 
就 启动 了 一 个 Word 进程 。 

一 些 进程 还 可 以 同时 进行 多 种 功能 ， 比 如 Word， 它 可 以 同时 进行 打字 、 拼 写 检查 、 打 
印 等 事情 。 这 就 需要 这 个 进程 同时 运行 多 个 “ 子 任务 ”这些 “ 子 任务 ” 称 为 线程 (Thread)。 

每 个 进程 至 少 包含 一 个 线程 叫 主线 程 。 它 在 程序 中 运行 ， 主 线程 在 运行 过 程 中 还 可 以 
创建 新 的 线程 ， 实 现 多 线程 。 

一 个 进程 拥有 的 多 个 线程 可 以 同时 执行 ， 多 线程 的 执行 方式 和 多 进程 是 一 样 的 ， 也 是 
由 操作 系统 在 多 个 线程 之 间 快 速 切换 ， 让 每 个 线程 都 短暂 地 交替 运行 ， 看 起 来 就 像 同 时 执 
行 一 样 。 

线程 在 执行 过 程 中 与 进程 是 有 区 别 的 。 每 个 独立 的 线程 有 一 个 程序 运行 的 入 口 、 顺 序 
执行 序列 和 程序 的 出 口 。 但 是 线程 不 能 够 独立 执行 ， 必 须 依存 在 应 用 程序 中 ， 由 应 用 程序 
提供 多 个 线程 执行 控制 。 

2. 多 线程 优 缺点 

多 线程 运行 有 如 下 优点 : 

(1) 使 用 线程 可 以 把 占据 长 时 间 的 程序 中 的 任务 放 到 后 台 去 处 理 。 

(2) 用 户 界面 可 以 更 加 吸引 人 ， 这 样 比如 在 用 户 下 载 文件 的 同时 ， 可 以 弹出 一 个 进度 
条 来 显示 下 载 的 进度 。 

(3) 程序 的 运行 速度 可 能 加 快 。 

(4) 可 以 分 析 设 置 各 个 任务 的 优先 级 来 优化 性 能 。 

但 是 多 线程 的 致命 缺点 是 任何 一 个 线程 崩溃 都 可 能 造成 整个 进程 的 崩溃 ， 因 为 它们 共 
享 了 进程 的 内 存 资源 池 。 


8.4.2 ”创建 线程 


有 两 个 方式 支持 在 Python 3 中 使 用 线程 : _thread 模块 和 Thread 类 。 
1._thread 模块 创建 线程 
调用 _ thread 模块 中 的 start_new_thread(0) 函 数 来 产生 新 线程 。 语 法 格式 如 下 : 


thread.start new thread ( function, args[, kwargs] ) 


参数 说 明 : 

function: 线程 运行 函数 。 

args: 传递 给 线程 函数 的 参数 ， 使 用 空 的 元 组 来 调用 函数 表示 不 传递 任何 参数 ， 必 须 
是 元 组 类 型 。 

kwargs: 可 选 参数 。 

start_new_thread(): 创建 一 个 线程 并 运行 指定 函数 ， 当 函数 返回 时 ， 线 程 自动 结束 。 


【 例 8-4】 使 用 thread 模块 中 的 start_ new_thread(O) 函 数 来 创建 线程 。 创 建 3 个 线程 ， 
每 个 线程 运行 2 次 ， 代 码 如 下 : 

import thread # 导 入 thread 模块 

import time 并 导入 时 间 time 模块 


# 为 线程 定义 一 个 函数 
def cnt thread (id) : 


enee = 井 计 算 器 赋值 为 1 
print ("线程 sq 正在 运行 …" % id) # 打 印 正在 运行 的 线程 号 
while cnt<3: # 每 个 线程 可 以 被 运行 2 次 


print ("线程 $d 计数 器 的 值 为 : $d" %$ (id, cnt)) 

time.sleep (2) 

cnt += 1 # 每 次 线程 被 调用 计算 器 值 增 1 
# 创 建 3 个 线程 ， 调 用 cnt thread 函数 运行 线程 ， 并 将 线程 ID 号 作为 传 入 参数 
for i in range(3): 

thread.start new thread (cnt thread, (i,)) 
# 主 线程 运行 
print ("主线 程 无 限 循 环 中 …") 
while True: 
pass 

上 述 代码 输出 结果 : 
主线 程 无 限 循环 中 … 
线程 1 正在 运行 … 
线程 0 正在 运行 … 
线程 0 计数 器 的 值 为 : 1 
线程 2 正在 运行 … 
线程 1 计数 器 的 值 为 : 
线程 2 计数 器 的 值 为 : 
线程 0 计数 器 的 值 为 : 
线程 2 计数 器 的 值 为 : 
线程 1 计数 器 的 值 为 : 


从 结果 中 可 以 看 到 主线 程 是 最 先 启动 的 。 线 程 的 创建 虽然 是 有 顺序 的 ， 但 线程 是 并 发 
运行 的 ， 所 以 哪个 线程 先 执 行 是 不 确定 的 。 

2. Thread 类 创建 线程 

_thread 是 低级 模块 ，threading 是 高 级 模块 ， 它 对 _thread 进行 了 封装 ， 为 线程 提供 了 
更 强大 的 高 级 支持 。 绝 大 多 数 情况 下 都 只 需要 使 用 threading 这 个 高 级 模块 。 

threading 模块 提供 了 Thread 类 来 创建 和 处 理 线程 ， 有 两 种 使 用 方法 ,直接 传 入 要 运行 
的 方法 或 从 Thread 继承 并 覆盖 run()。 

语法 格式 如 下 : 

线程 对 象 =threading-Thread (target= 线 程 函 数 ，args= (参数 列表 ) ,name= 线 程 名 ，group= 

线程 组 ) 


NI PP 


线程 名 和 线程 组 都 可 以 省 略 。 
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【 例 8-S】 直接 使 用 threading.Thread 类 来 创建 线程 。 


port threading # 导 入 threading 模块 
import time # 导 入 时 间 time 模块 
# 定 义 线程 处 理 函数 
def fun(): 
print ("线程 正在 运行 ”) 
time.sleep (2) 
print ("线程 结束 "”) 
# 定 义 主线 程 函数 
def main(): 
print ("主线 程 开始 运行 ") 
t=threading.Thread (target=fun,args=()) # 创 建 一 个 新 的 线程 
t.start () # 启 动 创 建 的 线程 
time.sleep (1) 
print (" 主 线程 结束 运行 ") 
# 设 置 程序 从 main () 开始 运行 
if name ==" main ": 
main() 


上 述 代码 输出 结果 : 
主线 程 开始 运行 
线程 正在 运行 
主线 程 结 束 运行 
线程 结束 


Process finished with exit code 0 
Threading 类 常用 的 方法 如 表 8-6。 


表 8-6 Threading 类 常用 的 方法 


方法 描述 

rm0 线程 的 入 口 点 

start() 启动 线程 ， 通 过 调用 run0 方 法 启动 一 个 线程 

和 堵塞 进程 直到 线程 执行 完毕 。 参 数 time 指定 超时 间 〈 秒 )， 超 过 指定 时 间 就 
不 再 堵塞 进程 

isAlive() 检查 线程 是 否 活动 

getName() 返回 线程 名 

setName() 设置 线程 名 


threading 模块 提供 的 其 他 方法 如 表 8-7。 
表 8-7 threading 模块 方法 


方法 描述 

threading.currentThread() 返回 当前 线程 的 变量 
threading.enumerate() 返回 一 个 包含 正在 运行 的 线程 目录 
threading.activeCount() 返回 正在 运行 线程 的 数量 


【 例 8-6】 编写 自己 的 线程 类 myThread 来 创建 两 个 线程 对 象 ， 每 个 线程 对 象 运行 3 次 
后 结束 。 

使 用 Threading 模块 创建 线程 ,直接 从 threading.Thread 继承 , 然后 重 写 _init 方法 和 
rn 方法。 代码 如 下 : 


import threading # 导 入 threading 模块 

import time # 导 入 time 模块 

# 自 定义 的 线程 类 

class myThread (threading.Thread): # 继 承 父 类 threading.Thread 


def init (self,threadID,name,delaytime): # 重 写 init 方法 
threading.Thread. init (self) 


self.threadID=threadID ## 线 程 ID 号 
self.name=name # 线 程 名 
self.delaytime=delaytime # 延 迟 时 间 


# 把 要 执行 的 代码 写 到 run 函数 里 面 ， 线 程 在 创建 后 会 直接 运行 run 函数 
def run (self): 
print ("starting"+ self.name) 
print time (self.name, self .delaytime,3)  # 打 印 线程 开始 运行 时 间 
print ("Exiting"+self.name) 
# 打 印 线程 运行 的 系统 时 间 
def print time (threadName, delay,counter): 
while counter: 


time.sleep (delay) # 延 迟 时 间 
Print("ss: %s" g% (threadName,time.ctime())) # 打 印 系统 时 间 
counter = 1 

# 创 建新 线程 


threadl=myThread(1,"Threade-1", 1) 
thread2=myThread (2, "Threade-2", 2) 
# 启 动 线程 

threadl .start () 

thread2.start () 


上 述 代码 输出 结果 : 


StartingThreade-1 
StartingThreade-2 
Threade-1: Sat May 19 14:08:26 2018 
Threade-1: Sat May 19 14:08:27 2018 
Threade-2: Sat May 19 14:08:27 2018 
Threade-1: Sat May 19 14:08:28 2018 
ExitingThreade-1 
Threade-2: Sat May 19 14:08:29 2018 
Threade-2: Sat May 19 14:08:31 2018 
ExitingThreade-2 


要 使 用 threading 模块 实现 新 线程 ， 必 须 执行 以 下 操作 。 
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(1) 定义 Eee 
(2) 履 盖 init _ (self [，args]) 方 法 添加 其 他 参数 。 
重 写 ee pr ried net en ede 
(3) 当 创 建 了 新 的 Thread 的 子 类 之 后 ， 就 可 以 创建 一 个 实例 ， 然 后 调用 start0 方 法 来 
调用 run0 方 法 从 而 启动 一 个 新 的 线程 。 


8.4.3 ”线程 同步 

在 多 线程 中 ， 变 量 由 各 个 线程 共享 。 如 果 多 个 线程 共同 对 某 个 数据 修改 ， 则 可 能 出 现 
不 可 预料 的 结果 。 

【 例 8-7】 创建 两 个 线程 模拟 顾客 到 银行 ， 每 个 顾客 都 是 先 存 钱 ， 然 后 立即 取出 和 存 
入 相同 的 金额 。 代 码 如 下 : 


import threading 
money = 0 # 变 量 money 被 customerl 和 customer2 两 个 线程 共享 
# 存 钱 
def put money (sum): 
global money 
money += sum 
# 取 钱 
def get money (sum): 
global money 
money -= sum 
# 定 义 线程 运行 函数 模拟 顾客 存 取款 ) 
def run thread(sum): 
for i in range(1000000) : # 执 行 次 数 要 足够 多 
# 先 存 sum， 后 取 sum， 钱 数 应 当 为 0 
put money (sum) 
get money (sum) 
# 创 建 两 个 顾客 线程 
customerl = threading.Thread (target=run thread，args=(100, ) )# 每 次 存 100, 取 100 
customer2 =threading.Thread (target=run thread, args=(1000, ) )# 每 次 存 1000, 取 1000 
# 启 动 线程 
customerl .start () 
customer2 .start() 
# 打 印 银行 存款 


Print (money) 


程序 运行 结果 每 次 都 不 相同 。 在 上 面 的 例子 中 ， 先 存 钱 ， 再 全 部 取出 ， 银 行 存款 
数 应 当 一 直 为 0。 ee 然而 在 多 线程 中 ， 操 作 系统 交叉 执行 赋值 语 
导致 全 局 变量 被 一 个 线程 修改 了 , 另 一 个 线程 却 不 知情 的 情况 。 因 为 在 操作 系统 中 , money 
+= sum, a 


x = money + Sum 


money = x 


这 两 条 语句 的 执行 顺序 很 可 能 是 乱 序 的 ( money 一 sum 同 理 )。 导 臻 最 后 money 的 金额 
不 为 0。 为 了 保证 数据 的 正确 性 ， 需 要 对 多 个 线程 进行 同步 。 

Threading 模块 中 lock 对 象 可 以 实现 简单 的 线程 同步 , 这 个 对 象 有 acquire 方法 (加 锁 ) 
和 release (释放 锁 ) 方法 ， 对 于 那些 需要 每 次 只 允许 一 个 线程 操作 的 数据 ， 可 以 将 其 操作 
放 到 acquire 和 release 方法 之 间 。 

【 例 8-8】 运用 lock 锁 的 机 制 改 写 例 8-7， 代 码 如 下 : 


import threading 
money = 0 # 变 量 money 被 customerl 和 customer2 两 个 线程 共享 
# 存 钱 
def put money (sum): 
global money 
money += sum 
# 取 钱 
def get money (sum): 
global money 
money -= sum 
# 定 义 线程 运行 函数 模拟 顾客 存 取款 ) 


def run thread (sum) : 


for i in range(1000000) : # 执 行 的 次 数 要 足够 多 
# 先 存 sum， 后 取 sum， 钱 数 应 当 为 0 
lock.acquire() # 加 锁 


put money (sum) 
get money (sum) 
lock.release() # 释 放 锁 

# 创 建 一 个 指令 锁 

lock=threading.1lock() 

# 创 建 两 个 顾客 线程 

customerl = threading.Thread (target=run thread,，args=(100, ) )# 每 次 存 100, 取 100 

customer2 =threading.Thread (target=run thread, args=(1000, ) )# 每 次 存 1000, 取 1000 

# 启 动 线程 

customer]l .start () 

customer2 .start() 

# 打 印 银行 存款 

print (money) 

上 述 代码 输出 结果 : 0。 

当 一 个 线程 调用 lock 对 象 的 acquire() 方 法 获得 锁 时 ， 这 把 锁 就 进入 “locked” 状 态 。 
因为 每 次 只 有 一 个 线程 可 以 获得 锁 ， 所 以 如 果 此 时 另 一 个 线程 试图 获得 这 个 锁 ， 该 线程 就 
会 变 为 阻塞 状态 ， 和 暂停 执行 。 直 到 拥有 锁 的 线程 调用 release() 方 法 释放 锁 之 后 。 线 程 调度 
程序 从 处 于 阻塞 状态 的 线程 中 选择 一 个 线程 来 获得 锁 继续 运行 。 
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本 章 小 结 


本 章 主要 介绍 了 Python 中 网 络 编程 的 基本 概念 。 重点 讲解 了 利用 TCP 和 UDP 协议 实 
现 客户 端 和 服务 器 通信 。 介 绍 了 多 线程 基本 理论 和 编程 思想 ， 创 建 多 线程 的 两 种 基本 方法 
和 多 线程 的 同步 机 制 。 通过 对 本 章 的 学 习 , 读者 不 仅 能 够 对 Python 中 网 络 编程 及 多 线程 有 
初步 的 了 解 ， 还 能 为 学 习 多 线程 候 虫 开发 打下 基础 。 


第 9 章 网 络 疏 里 


导 学 

网 络 爬 虫 技 术 是 当今 信息 技术 中 大 数据 采集 的 重要 手段 。 在 诸多 网 络 爬 虫 技术 中 ， 
Python 是 目前 最 主流 ， 同 时 最 适合 学 习 网 络 爬 虫 的 开发 语言 。 通 过 引用 第 三 方 库 ，Python 
可 快速 、 准 确 地 实现 网 络 息 虫 的 主要 功能 。 其 模块 化 的 设计 理念 ， 使 得 网 络 息 由 有 更 好 的 
开放 性 和 扩展 性 。 通 过 学 习 Python， 不 但 能 够 帮助 开发 者 掌握 实现 网 络 恨 虫 的 主要 方法 ， 
同时 还 可 让 开发 者 对 Python 的 仆 虫 相关 库 有 更 深 的 理解 。 

了 解 : 网 络 仆 虫 的 概念 与 基本 原理 ,利用 Python 实现 抓 取 网 页 内 容 的 相关 库 和 处 理 提 
取 抓 取 内 容 的 库 ， 以 及 处 理 网 络 爬 虫 异常 的 方法 。 

掌握 : 利用 requests 库 抓 取 网 页 内 容 的 主要 方法 ， 以 及 利用 BeautifulSoup 库 处 理 与 提 
取 网 页 的 主要 方法 。 

众所周知 ， 信 息 已 成 为 当今 社会 的 重要 资源 和 财富 。 面 对 日 益 增长 的 信息 量 与 信息 处 
理 需 求 ， 对 大 数据 的 采集 是 大 数据 处 理 与 分 析 的 首要 工作 ， 这 其 中 利用 网 络 爬 虫 采 集 互联 
网 非 结 构 化 数据 是 大 数据 采集 的 重要 手段 ，Python 作为 一 种 扩展 性 高 的 语言 ， 有 丰富 的 抓 
取 网 页 内 容 的 库 以 及 处 理 提 取 抓 取 内 容 的 库 ， 是 目前 主流 的 网 络 聆 虫 实现 技术 。 


9.1 网 络 爬 虫 基本 原理 


1. 网 络 息 虫 概念 

网 络 仆 虫 ， 也 叫 网 络 蜂 蛛 ， 如 果 把 互联 网 比喻 成 一 个 蜂 蛛 网 ， 网 络 仆 虫 就 是 一 只 在 网 
上 的 来 仆 去 的 蜂 蛛 。 网 络 息 虫 根据 网 页 地 址 (URL) 寻找 网 页 ， 获 取 所 需 资源 。 

2. URL 

URL， 即 统一 资源 定位 符 ， 也 就 是 通常 所 说 的 网 址 ， 统 一 资源 定位 符 是 对 可 以 从 互联 
网 上 得 到 的 资源 的 位 置 和 访问 方法 的 一 种 简洁 的 表示 ， 是 互联 网 上 标准 资源 的 地 址 。 互 联 
网 上 的 每 个 文件 都 有 一 个 唯一 的 URL, 它 包含 的 信息 指出 文件 的 位 置 以 及 浏览 器 应 该 怎么 
处 理 它 。URL 的 格式 由 三 部 分 组 成 : 

(1) 第 一 部 分 是 协议 (或 称 为 服务 方式 )， 目 前 主流 的 协议 有 http 和 https 协议 。 

(2) 第 二 部 分 是 主机 名 (还 有 端口 号 为 可 选 参 数 )， 一 般 网 站 默认 端口 号 为 80， 例 如 
中 国医 科大 学 的 主机 名 就 是 www.cmu.edu.cn。 

(3) 第 三 部 分 是 主机 资源 的 具体 地 址 ， 如 目录 和 文件 名 等 。 

网 络 聆 虫 是 根据 URL 来 获取 网 页 信息 ， 因 此 ，URL 是 疏 虫 获取 数据 的 基本 依据 ， 准 
确 理解 URL 的 含义 对 聆 虫 学 习 有 很 大 帮助 。 
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3. HTTP 协议 

HTTP 协议 (HyperText Transfer Protocol， 超 文本 传输 协议 ) 是 用 于 从 WWW 服务 器 
传输 超 文本 到 本 地 浏览 器 的 传送 协议 。 它 可 以 使 浏览 器 更 加 高 效 ， 使 网 络 传输 减少 。 它 不 
仅 保 证 计算 机 正确 快速 地 传输 超 文本 文档 ， 还 确定 传输 文档 中 的 哪 一 部 分 ， 以 及 哪 部 分 内 
容 首先 显示 (如 文本 先 于 图 形 ) 等 。 

HTTP 协议 永远 都 是 客户 端 发 起 请 求 ， 服 务 器 回 送 响应 。 这 样 就 限制 了 使 用 HTTP 协 
议 ， 无 法 实现 在 客户 端 没 有 发 起 请 求 的 时 候 ， 服 务 器 将 消息 推送 给 客户 端 。 

HITP 协议 是 一 个 无 状态 的 协议 , 同一 个 客户 端的 这 次 请 求 和 上 次 请 求 没有 对 应 关系 。 

一 次 HITP 操作 称 为 一 个 事务 ， 其 工作 过 程 可 分 为 四 步 。 

(1) 首先 客户 机 与 服务 器 需要 建立 连接 。 只 要 单 击 某 个 超级 链接 ，HTTP 就 开始 工作 。 

(2) 建立 连接 后 ， 客 户 机 发 送 一 个 请 求 给 服务 器 ， 请 求 方式 的 格式 为 : 统一 资源 定位 
符 (CURL)、 协 议 版 本 号 等 信息 。 

(3) 服务 器 接 到 请 求 后 ， 给 予 相应 的 响应 信息 ， 其 格式 为 一 个 状态 行 ， 包 括 信息 的 协 
议 版 本 号 、 一 个 成 功 或 错误 的 代码 ， 以 及 MIME 〈 多 用 途 因特网 邮件 扩充 ) 信息 ， 包 括 服 
务 器 信息 、 实 体 信息 和 可 能 的 内 容 。 

(4) 客户 端 接收 服务 器 所 返回 的 信息 通过 浏览 器 显示 在 用 户 的 显示 屏 上 ， 然 后 客户 机 
与 服务 器 断 开 连接 。 

如 果 在 以 上 过 程 中 出 现 错误 ， 那 么 产生 错误 的 信息 将 返回 到 客户 端 。 对 于 用 户 来 说 ， 
这 些 过 程 是 由 HITP 完成 的 ， 用 户 只 要 用 鼠标 单 击 ， 等 待 信息 显示 即 可 。 

4 网络 怜 虫 原理 

通过 上 述 工作 流程 可 知 ， 网 络 朴 虫 是 模拟 用 户 访问 网 站 ， 通 过 处 理 和 提取 得 到 的 网 页 
内 容 ， 实 现 对 图 片 、 文 字 等 资源 的 获取 。 

在 Python 中 提供 了 丰富 的 获取 网 页 内 容 的 库 ， 以 及 处 理 提取 网 页 内 容 的 库 ， 利用 这 些 
库 ，Python 可 以 实现 网 络 爬 虫 功能 ， 在 本 章 中 将 对 网 络 聆 虫 中 应 用 的 典型 库 进 行 讲解 。 


9.2 requests 库 


由 网 络 爬 虫 原理 可 知 ， 疏 虫 应 用 的 库 主 要 有 怜 取 网 页 内 容 的 库 和 处 理 提 取 内 容 的 库 。 
在 拒 取 网 页 内 容 的 库 中 ， 有 requests 库 和 urllib 库 。 其 中 requests 库 是 学 习 Python 网 络 
息 虫 最 基本 的 库 ， 可 以 方便 地 对 网 页 进行 仆 取 ， 是 学 习 Python 网 络 仆 虫 较 好 的 http 请 
9.2.1 requests 库 的 安装 

1，Ppip 命令 安装 

在 Windows 系统 下 只 需要 在 cmd 命令 行 输入 命令 pip install requests 即 可 安装 。 


pip install requests 


2. 下 载 安装 包 安装 
由 于 pip 命令 可 能 安装 失败 , 所 以 有 时 需 通 过 下 载 第 三 方 库 文件 来 进行 安装 。 在 github 
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3. HTTP 协议 

HTTP 协议 (HyperText Transfer Protocol， 超 文本 传输 协议 ) 是 用 于 从 WWW 服务 器 
传输 超 文本 到 本 地 浏览 器 的 传送 协议 。 它 可 以 使 浏览 器 更 加 高 效 ， 使 网 络 传输 减少 。 它 不 
仅 保 证 计算 机 正确 快速 地 传输 超 文本 文档 ， 还 确定 传输 文档 中 的 哪 一 部 分 ， 以 及 哪 部 分 内 
容 首先 显示 (如 文本 先 于 图 形 ) 等 。 

HTTP 协议 永远 都 是 客户 端 发 起 请 求 ， 服 务 器 回 送 响应 。 这 样 就 限制 了 使 用 HTTP 协 
议 ， 无 法 实现 在 客户 端 没 有 发 起 请 求 的 时 候 ， 服 务 器 将 消息 推送 给 客户 端 。 

HITP 协议 是 一 个 无 状态 的 协议 , 同一 个 客户 端的 这 次 请 求 和 上 次 请 求 没有 对 应 关系 。 

一 次 HITP 操作 称 为 一 个 事务 ， 其 工作 过 程 可 分 为 四 步 。 

(1) 首先 客户 机 与 服务 器 需要 建立 连接 。 只 要 单 击 某 个 超级 链接 ，HTTP 就 开始 工作 。 

(2) 建立 连接 后 ， 客 户 机 发 送 一 个 请 求 给 服务 器 ， 请 求 方式 的 格式 为 : 统一 资源 定位 
符 (CURL)、 协 议 版 本 号 等 信息 。 

(3) 服务 器 接 到 请 求 后 ， 给 予 相应 的 响应 信息 ， 其 格式 为 一 个 状态 行 ， 包 括 信息 的 协 
议 版 本 号 、 一 个 成 功 或 错误 的 代码 ， 以 及 MIME 〈 多 用 途 因特网 邮件 扩充 ) 信息 ， 包 括 服 
务 器 信息 、 实 体 信息 和 可 能 的 内 容 。 

(4) 客户 端 接收 服务 器 所 返回 的 信息 通过 浏览 器 显示 在 用 户 的 显示 屏 上 ， 然 后 客户 机 
与 服务 器 断 开 连接 。 

如 果 在 以 上 过 程 中 出 现 错误 ， 那 么 产生 错误 的 信息 将 返回 到 客户 端 。 对 于 用 户 来 说 ， 
这 些 过 程 是 由 HITP 完成 的 ， 用 户 只 要 用 鼠标 单 击 ， 等 待 信息 显示 即 可 。 

4 网络 怜 虫 原理 

通过 上 述 工作 流程 可 知 ， 网 络 朴 虫 是 模拟 用 户 访问 网 站 ， 通 过 处 理 和 提取 得 到 的 网 页 
内 容 ， 实 现 对 图 片 、 文 字 等 资源 的 获取 。 

在 Python 中 提供 了 丰富 的 获取 网 页 内 容 的 库 ， 以 及 处 理 提取 网 页 内 容 的 库 ， 利用 这 些 
库 ，Python 可 以 实现 网 络 爬 虫 功能 ， 在 本 章 中 将 对 网 络 聆 虫 中 应 用 的 典型 库 进 行 讲解 。 


9.2 requests 库 


由 网 络 爬 虫 原理 可 知 ， 疏 虫 应 用 的 库 主 要 有 怜 取 网 页 内 容 的 库 和 处 理 提 取 内 容 的 库 。 
在 拒 取 网 页 内 容 的 库 中 ， 有 requests 库 和 urllib 库 。 其 中 requests 库 是 学 习 Python 网 络 
息 虫 最 基本 的 库 ， 可 以 方便 地 对 网 页 进行 仆 取 ， 是 学 习 Python 网 络 仆 虫 较 好 的 http 请 
9.2.1 requests 库 的 安装 

1，Ppip 命令 安装 

在 Windows 系统 下 只 需要 在 cmd 命令 行 输入 命令 pip install requests 即 可 安装 。 


pip install requests 


2. 下 载 安装 包 安装 
由 于 pip 命令 可 能 安装 失败 , 所 以 有 时 需 通 过 下 载 第 三 方 库 文件 来 进行 安装 。 在 github 


上 的 地 址 为 “https:Wgithub.com/requests/requests”， 下 载 文件 到 本 地 之 后 ， 解 压 到 python 安 
装 目录 。 之 后 打开 解压 文件 ， 在 此 处 运行 命令 行 并 输入 python setup.py install 即 可 。 


Python setup.py install 


安装 后 测试 requests 模块 是 否 安 装 正确 , 在 交互 式 环境 中 输入 import requests。 如 果 没 


有 任何 报错 信息 ， 说 明 requests 模块 已 经 安装 成 功 了 。 
import requests  # 导 入 requests 库 
9.2.2 requests 库 的 使 用 方法 
requests 库 有 七 个 主要 方法 ， 如 表 9-1 所 示 。 
表 9-1 requests 库 的 主要 方法 


方法 说 明 
requests.get() 获取 html 的 主要 方法 
requests.head() 获取 html 头 部 信息 的 主要 方法 
requests.post() 向 html 网 页 提交 post 请 求 的 方法 
requests.put() 向 html 网 页 提交 put 请 求 的 方法 
requests.patch() 向 html 提交 局 部 修改 的 请 求 
requests.delete() 向 html 提交 删除 请 求 
requests.request() 构造 一 个 请 求 ， 支 持 以 上 各 种 方法 

本 节 将 依次 讲解 上 述 方法 。 

1. requests.get() 

在 客户 端 和 服务 器 之 间 进 行 请 求 -响应 时 ， 两 种 最 常 被 用 到 的 方法 是 get 和 post。 


requests.get0 方 法 是 获取 网 页 内 容 最 常用 的 方法 之 一 ， 理 解 requests.get0 方 法 有 助 于 更 好 地 
理解 其 他 方法 ， 本 节 将 详细 讲解 requests.get0 方 法 。 具 体 参 数 如 下 : 


r=requests.get (url,params, **kwargs) # 利 用 requests .get () 获取 网 页 内 容 


其 中 url 表示 需要 有 息 取 的 网 站 地 址 ; params 为 参数 ， 是 url 中 
或 者 字 节 流 ， 为 可 选 ，**kwargs 是 12 个 控制 访问 的 参数 。 


的 额外 参数 ,格式 为 字典 


**kwargs 主要 参数 介绍 如 下 ， 在 requests.get() 方 法 中 ， 第 一 个 参数 params 作为 单独 参 


数 被 列 出 。 
(1) params: 字典 或 字 节 序列 ， 作 为 参数 增加 到 URL 中 ,使 
值 对 以 keyl=valuel&key2=value2 的 模式 增加 到 URL 中 ， 代 码 如 


用 这 个 参数 可 以 把 一 些 键 
下 : 


kv = {'keyl':'values','key2':'values'} # 将 键 值 对 参数 传 入 URL 中 
r= requests.request('GET', 'http:www.python123.io/ws',params=kw) 


(2) data: 字典 ， 字 节 序 或 文件 对 象 ， 向 服务 器 提交 资源 时 填写 ， 作 为 request 的 内 容 ， 


与 params 不 同 的 是 ，data 提交 的 数据 并 不 放 在 URL 链接 里 ， 而 是 放 在 URL 链接 对 应 位 置 


的 地 方 作 为 数据 来 存储 ， 它 也 可 以 接受 一 个 字符 串 对 象 。 
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(3) json: json 格式 的 数据 ，json 在 相关 的 HIML、HTTP 相关 的 Web 开发 中 非常 常 
见 ， 也 是 HTTP 最 经 常 使 用 的 数据 格式 , json 作为 内 容 部 分 可 以 向 服务 器 提交 ， 代 码 如 下 : 


kv = {'keyl':'valuel'} # 将 json 参数 传 入 URL 中 
r= requests.request('POST', 'http://python123.io/ws',json=kv) 


(4) headers: headers 字段 定义 访问 HTTP 网 站 的 HTTP 头 ， 可 模拟 浏览 器 对 URL 发 
起 访问 ， 代 码 如 下 : 


hd = {'user-agent':'Chrome/10'} # 将 头 部 传 入 URL 中 
r= requests.request('POST', 'http://pythonl123.io/ws',headers=hd) 


(5) cookies: 字典 或 CookieJar， 指 从 http 中 解析 的 cookie。 
(6) auth: 元 组 ， 用 来 支持 http 认证 功能 。 
(7) files: 字典 ， 向 服务 器 传输 文件 时 使 用 的 字段 ， 代 码 如 下 : 


fs = {'files': open('data.txt','rb')} # 将 文件 传 入 URL 中 
r = requests.request ('POST', 'http://python123.io/ws',files=fs) 


(8) timeout: 用 于 设 定 超时 时 间 ， 单 位 为 秒 ， 当 发 起 一 个 get 请 求 时 可 以 设置 一 个 


(9) proxies: 字典 ， 用 来 设置 访问 代理 服务 器 。 

(10) allow_redirects: 开关 ， 表 示 是 否 允 许 对 url 进行 重 定向 ， 默 认为 True。 

(11) stream: 开关 ， 表 示 是 否 对 获取 内 容 进 行 立 即 下 载 ， 默 认为 True。 

(12) verify: 开关 ， 用 于 认证 SSL 证 书 ， 默 认为 True。 

(13) cert: 用 于 设置 保存 本 地 SSL 证 书 路 径 。 

requests.get() 构 造 一 个 服务 器 请 求 request， 返 回 一 个 包含 服务 器 资源 的 response 对 象 。 
response 对 象 属性 如 表 9-2 所 示 。 


表 9-2 response 对 象 属性 


方法 说 明 

Tstatus_code http 请 求 的 返回 状态 ， 若 为 200 则 表示 请 求 成 功 

rtext http 响应 内 容 的 字符 串 形式 ， 即 返回 的 页 面 内 容 
Lencoding 根据 http header 得 出 的 相应 内 容 编码 方式 
Lapparent_encoding 从 内 容 中 分 析出 的 响应 内 容 编 码 方式 〈( 备 选编 码 方式 ) 
Tcontent http 响应 内 容 的 二 进 制 形式 


以 访问 百度 网 站 为 例 ，requests.getO 的 使 用 方法 及 response 对 象 各 属性 如 下 : 


import requests # 导 入 requests 库 
# 利 用 requests .get () 方法 得 到 百度 网 页 内 容 
r=requests.get ("http://www.baidu.com") 


print (r.status code) # 输 出 请 求 返回 状态 
print (r.encoding) # 输 出 请 求 编码 方式 
print (r.apparent encoding) # 输 出 请 求 备 选编 码 方式 


Print (r.text) # 输 出 请 求 页 面 内 容 


输出 信息 为 response 对 象 各 属性 信息 ， 结 果 如 下 : 


200 

ISO=8859=1 

utf-8 

<!DOCTYPE html> 

<!--STRATUS OK--><html> <head><meta http-equiv=content-type content=text/ 
html;charset=utf-8>*…</p> </div> </div> </div> </body> </html> 


以 上 rtext 内 容 较 长 ， 删 除 中 间 部 分 ， 看 出 编码 效果 即 可 。 
2. requests.head() 

以 访问 httpbin 网 站 为 例 ，requests.head0 的 使 用 方法 如 下 : 
import requests # 导 入 requests 库 

# 利 用 requests .get () 方 法 得 到 网 站 头 部 信息 


r=requests.head ("http://httpbin.org/get") 
print (r.headers) # 输 出 网 站 头 部 信息 


输出 信息 为 httpbin 网 站 头 部 信息 ， 结 果 如 下 : 


{'Connection': 'keep-alive', 'Server': 'gunicorn/19.8.1', 'Date': 'Thu, 17 
May 2018 06:11:00 GMT', 'Content-Type': ‘'application/json', 'Content- 
Length': '206', 'Access-Control-Allow-Origin': '*', 'Rccess-Control- 


Allow-Credentials': 'true', 'Via': '1.1 vegur'} 


3. requests.post0 

在 客户 端 和 服务 器 之 间 进 行 请 求 -响应 时 ， 常 用 方法 除了 get 方法 还 有 post 方法 。 
requests.get() 方 法 能 得 到 通过 get 方法 访问 的 网 页 内 容 ， 而 通过 post 访问 的 网 站 需要 使 用 
requests.post() 方 法 得 到 相应 网 站 的 内 容 ， 在 使 用 requests.post() 方 法 时 需要 向 指定 的 资源 提 
交 要 被 处 理 的 数据 ， 其 中 数据 格式 常用 的 为 字典 或 字符 串 。 以 提交 字典 数据 为 例 ，requests. 
postO 的 使 用 方法 如 下 : 


import requests # 导 入 requests 库 
payload={"keyl":"valuel", "key2":"value2"}  # 定 义 被 提交 的 数据 
r=requests.post ("http://httpbin.org/post", data=payload) 
print (r.text) 


输出 信息 为 网 站 返回 信息 ， 结 果 如 下 : 


argqs™: Ty 

el 

mfiles™": Ty}; 

"form™: 

{"keyl":"valuel", 
"key2":"value2"}, 
"headers":{"Accept":"*/*", 


司 乱 雇 区 
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"Accept-Encoding":"gzip, deflate", 
"Connection":"close", 

"Content-Length":"23", 
"Content-Type":"application/x-www-form-urlencoded", 
wHost": "httpbin.org", 
"User-Agent":"python-requests/2.18.4"}, 


msonw nul 
Norigin® "S59 AG.6559" 
wurl":"http://httpbin.org/post"} 


在 使 用 requests.post0 方 法 时 也 可 以 提交 字符 串 数据 。 以 提交 字符 串 数据 为 例 ， 
requests.post() 的 使 用 方法 如 下 : 


import requests # 导 入 requests 库 
r=requests.post ("http://httpbin.org/post",data='helloworld') 
print(r.text) 


输出 信息 为 网 站 返回 信息 ， 结 果 如 下 : 


i 
"data":"helloworld", 
Fes 

"Eorm™:{}, 
"headers":{"Accept":"*/*", 


… 省 略 部 分 内 容 … 
"url":"http://httpbin.org/post"} 


4. requests.put() 

http 定义 了 客户 端 与 服务 器 的 交互 方法 ， 除 了 常用 的 get 方法 和 post 方法 ， 还 有 put 
方法 。 与 post 方法 类 似 ， 当 要 更 新 信息 到 URL 时 使 用 put 方法 ， 但 这 种 方法 不 常用 。 通 过 
put 访问 网 站 ， 使 用 requestsput() 方 法 获得 网 页 内 容 如 下 : 

import requests # 导 入 requests 库 

payload={"keyl":"valuel", "key2":"value2"} # 定 义 put 方法 数据 

r=requests.put ("http://httpbin.org/put",data=payload) 

print (r.text) 


输出 信息 为 通过 requests.put() 方 法 获得 的 网 页 内 容 ， 结 果 如 下 : 


{"args":{}, 


"gata™: mm", 
Eilegeely 
form™: 


{"keyl":"valuel", 
"key2":"value2"}, 
"headers":{"Accept":"*/*", 


"Accept-Encoding":"gzip, deflate", 


"Connection":"close", 

"Content-Length":"23", 
"Content-Type":"application/x-www-form-urlencoded", 
"Host":"httpbin.org", 
"User-Agent":"python-requests/2.18.4"}, 

wjsonv:nully 

woridineu le2>2000230. TA40%。 
"url":"http://httpbin.org/put"} 


5. requests.patch0 和 requests.delete0 

requests.patch() 方 法 和 request.put() 方 法 类 似 。 两 者 不 同 的 是 ， 当 使 用 patch 方法 时 仅 需 
要 提交 需要 修改 的 字段 ， 而 使 用 requestput0 时 ， 必 须 将 全 部 字段 一 起 提交 到 URL， 未 提 
交 字段 将 会 被 删除 。patch 的 好 处 是 节省 网 络 带宽 。 此 外 ，requests.delete 0 方法 用 于 向 html 
提交 删除 请 求 时 使 用 ， 使 用 方法 与 其 他 方法 一 致 ， 这 里 不 再 袭 述 。 

6. requests.request() 

requests.request() 支 持 上 述 所 有 方法 ， 其 使 用 方法 如 下 : 


requests.request (method, url,**kwargs) 


(1) method: “GET” “HEAD” “POST” “PUT”“PATCH” 等 。 

(2) url: 请 求 的 网 站 地 址 。 

(3) **kwargs: 控制 访问 的 参数 。 

在 requests requestO 中 可 以 通过 method 参数 调用 不 同 的 访问 方法 ， 使 用 方法 与 其 他 方 
法 类 似 ， 这 里 不 再 袭 述 。 


9.2.3 访问 异常 处 理 


使 用 requests 库 获取 网 页 内 容 有 时 会 产生 异常 ， 比 如 网 络 连接 错误 、http 错误 异常 、 
重 定向 异常 、 请 求 url 超时 异常 等 。 所 以 需 判断 rstatus_codes 是 否 是 200， 如 果 是 200 说 明 


请 求 成 功 ， 能 够 得 到 网 页 内 容 ， 和 否则 得 不 到 网 页 内 容 。 这 里 可 利用 rraise_for_status0 语 句 
捕捉 异常 ,该 语句 在 方法 内 部 判断 rstatus_code 是 否 等 于 200, 并 设置 请 求 超时 时 间 ， 如 果 
在 设置 时 间 内 没有 返回 200， 则 抛 出 异常 。 根 据 这 个 方法 ， 怜 取 网 页 的 捕捉 异常 通用 代码 
框架 可 以 写成 如 下 形式 : 


import requests # 导 入 requests 库 

EY 
r=requests.get (Url,timeout=30) 请求 超时 时 间 为 30 秒 
r.raise for status () # 如 果 状 态 不 是 200， 则 引发 异常 


r.encoding=r.apparent encoding # 配 置 编码 
return r.text 


except: 
return" 产 生 异 常 " 
在 使 用 Python 网 络 爬 虫 疏 取 网 页 内 容 时 ， 要 注意 捕捉 异常 ， 保 证 网 页 内 容 能 够 正常 
获取 。 


二 级 Python 须 醒 背 击 


9.2.4 requests 库 的 应 用 案例 


【 例 9-1】 新 闻 内 容 的 聆 取 。 利 用 requests 库 仆 取 中 国医 科大 学 新 闻 网 页 内 容 ， 要 有 息 取 
的 新 闻 页 面 地 址 为 http://www.cmu.edu.cn/info/1019/3395.htm， 新 闻 页 面 如 图 9-1 所 示 。 
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图 9-1 中 国医 科大 学 新 闻 页 面 


利用 requests 库 爬 取 上 述 页 面 ， 代 码 如 下 : 


import requests # 导 入 requests 库 
url='http://www.cmu.edu.cn/info/1019/3395.htm' # 定 义 要 抓 取 的 网 页 地 址 
EP 
r=requests.get (url,timeout=30) # 请 求 超时 时 间 为 30 秒 
r.raise for status () 坦 如 果 状 态 不 是 200， 则 引发 异常 
r.encoding=r.apparent encoding # 配 置 编码 
print (r.text[:2000]) # 输 出 部 分 信息 
except: 
print ("失败 ") 
部 分 输出 结果 如 下 : 


<!DOCTYPE html><HTML><HEAD><TITLE> 娄 岩 教授 荣获 2017 年 中 国医 药 教育 协会 教育 创新 一 
等 奖 - 中 国医 科大 学 网 站 </TITLE> 


<META charset="UTF-8"> 


<META content="edge" http-equiv="X-UA-Compatible"> 
content="width=device-width, 


<LINK rel="stylesheet" type="text/css" href="../../css/common.css"><LINK 


<META name="viewport" initial-scale=1.0"> 


rel="stylesheet" type="text/css" href="../../css/mediaquery.css"><LINK 
href=»:/: /css/nav ess"><LINK 


"stylesheet" type="text/css" href="../../css/special.css"> 


rel="stylesheet" type="text/css" El 


<!--Announced by Visual SiteBuilder 9--> 

<link rel="stylesheet" type="text/css" href="../../ sitegray/ sitegray d.css" /> 
<script language="javascript" src="../../_ sitegray/ sitegray.js"></script> 
<!-- CustomerNO:7765626265723230797347565350544603050003 --> 

<link rel="stylesheet" type="text/css" href="../../show arcicle.vsb.css" /> 


<META Name="keywords" Content=" 中 国医 科大 学 网 站 , 娄 岩 ,教授 ,荣获 , 2017, 年 中 ,中 国医 


药 , 中 国 , 国医 , 医药, 教育 , 协会 ,会 教 ,创新 ,新 一 ,一 等 奖 , 一 等 ,等 奖 " /> 


<META Name="description" Content="12 月 1 日 -3 日 ,我 校 娄 岩 教授 的 《高 校 通用 翻转 课 


堂 教 学 系统 的 实验 研究 》 课 题 (该 课题 系 辽 宁 省 教育 科学 “十 二 五 "规划 2015 年 度 立 项 课题 JG15DB457) 
在 中 国医 药 教育 大 会 暨 中 国医 药 教育 协会 第 四 届 三 次 理事 会 议 上 , 荣获 2017 年 中 国医 药 教育 协会 教育 创 
新 个 人 一 等 奖 ， 同 时 为 学 校 获 得 单位 一 等 奖 (全 国 唯一 一 个 一 等 奖 )。 
部 批准 ， 成 立 于 1992 年 7 月 3 日 。 主 管 单位 为 国务 院 国有 资产 监督 管理 委员 会 ， 业 务 . . ." />… 


【 例 9-2】 


信息 地 址 为 https:Witem jd.com/22885584849 html， 商 品 页 面 如 图 9-2 所 示 。 
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图 9-2 京东 商品 页 面 
利用 requests 库 爬 取 上 述 页 面 ， 代 码 如 下 : 
import requests # 导 入 requests 库 


url='https://item.jd.com/22885584849.html' # 定 义 要 抓 取 的 网 页 地 址 


厨 经 猎 中 


二 级 Python 顷 栓 背 丧 


tr 
r=requests.get (url,timeout=30) # 请 求 超时 时 间 为 30 秒 
r.raise for status () 井 如 果 状态 不 是 200， 则 引发 异常 
r.encoding=r.apparent encoding # 配 置 编码 
print (r.text[:2000]) # 输 出 部 分 信息 

except: 
print ("失败 ") 


上 述 代 码 部 分 输出 结果 如 下 : 


<!DOCTYPE HTML> 

<htm1l lang="zh-CN"> 

<head> 
< “new book > 
<meta http-equiv="Content-Type" content="text/html; charset=gbk" /> 
<title>《 大 数据 技术 与 应 用 娄 岩 9787302451815》【 摘 要 书评 试 读 】- 京东 图 书 </title> 
<meta name="keywords" content=" 大 数据 技术 与 应 用 类 岩 9787302451815, ,清华 大 
学 出 版 社 , 9787302451815, ,在 线 购买 ,折扣 ,打折 "/> 
<meta name="description" content=" 京 东 JD.COM 图 书 频道 为 您 提供 《大 数据 技术 与 
应 用 娄 岩 9787302451815》 在 线 选 购 ， 本 书 作 者 :， 出 版 社 :清华 大 学 出 版 社 。 买 图 书 ， 到 
京东 。 网 购 图 书 ， 享 受 最 低 优 惠 折 扣 !" />… 


【 例 9-3】 搜索 引擎 的 仆 取 。 以 百度 为 例 ， 搜 索 某 一 关键 字 的 地 址 为 http://www.baidu. 
com/s?wd=keyword， 在 这 个 地 址 中 ，keyword 为 要 搜索 的 关键 字 ， 所 以 需要 将 关键 字 作为 
参数 传 入 搜索 地 址 中 ， 搜 索 页 面 如 图 9-3 所 示 。 


Ba 省 se 中 国医 药 教育 协会 智能 医学 专业 委员 会 — 百 庆 一 下 
网 页 新闻 贴吧 知道 音乐 图片” 视 须 地 图 文 订 更 多 * 
二 度 0 搜索 工具 
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中 国医 药 教育 协会 乔 能 医学 专业 委员 会 是 好 中 国医 药 教育 协会 批准 成 
立 的 国家 一 级 学 会 ,挂靠 单位 为 中 国医 科大 学 2018 年 3 月 31 日 成 
立 .首届 主任 委员 为 中 国医 科大 学 的 类 岩 教 授 . 
中 国医 药 教育 深 会 第 介 更 多 >> 
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图 9-3 百度 搜索 页 面 


将 keyword 作为 参数 传 入 搜索 地 址 中 ， 代 码 如 下 : 


import requests 井 导 入 requests 库 
keyword=' 中 国医 药 教育 协会 智能 医学 专业 委员 会 ' # 定 义 搜索 关键 字 
try: 
key={ 'wd' :keyword} ## 定 义 关键 字 参 数 
r=requests.get ('http://www.baidu.com/s',params=key) 
r.raise for status() # 如 果 状 态 不 是 200， 则 引发 异常 
r.encoding=r.apparent encoding # 配 置 编码 
print (r.text) # 输 出 部 分 信息 
except: 
print ("失败 ") 
上 述 代码 部 分 输出 结果 如 下 : 


“<div class="result-op c-container xpath-log" srcid="1547" id="5" 
tpl="bk polysemy"” mu="https://baike.baidu.com/item/ 中 国医 药 教育 协会 智能 医学 
专业 委员 会 /22480826"” data-op="{'y':'FlFFD3F5'}" data-click="{'pl':'5', 
ESVDdF OECD TS stl "><h3 class="t'c-qgap=>bottom small"> 
<a href="http://www. baidu.com/link?url=W2s...7fW" target=" blank"> 中 国医 
药 教育 协会 <em> 智 能 医学 </em> 专 业 委员 会 _ 百 度 百科 </a> 
</h3><div class="c-row"><div class="c-span6"><a href="http://www.baidu.com/ 
link?url=W2s.. .7fW" target=" blank" class="op-bk-polysemy-album op-se-listen— 
recommend" style=" height:91px"> 
<img class="c-img c-img6" src="http://t12.baidu.com/it/u= 
3380033408,1991280375&fm=58&bpow=750&bpoh=500" /></a></div> 
<div class="c-spanl8 c-span-last"><p> 
中 国医 药 教育 协会 <em> 智 能 医学 </em> 专 业 委 员 会 是 经 中 国医 药 教育 协会 
批准 成 立 的 国家 二 级 学 会 ,挂靠 单 位 为 中 国医 科大 学 ,， 2018 年 3 月 31 日 成 
立 。 首 届 主 任 委员 为 中 国医 科大 学 的 娄 岩 教授 。 </p>*… 


9.3 ”BeautifulSoup 库 


在 上 节 中 ， 介 绍 了 requests 库 的 使 用 方法 和 应 用 案例 ， 通 过 requests 库 ， 可 以 获取 网 
页 的 html 或 者 其 他 形式 的 内 容 , 但 是 这 些 内 容 太 过 于 繁杂 ， 所 以 需要 对 这 些 内 容 进行 处 理 
和 提取 ， 得 到 整理 后 真实 有 用 的 数据 。Python 提供 了 很 多 对 内 容 进行 处 理 以 及 提取 的 库 ， 
如 BeautifulSoup 库 和 PyQuery 库 等 ， 其 中 BeautifulSoup 库 是 用 于 解析 html 或 者 xml 文档 
的 库 ， 是 解析 、 遍 历 以 及 维护 标签 树 的 功能 库 ， 可 以 方便 地 提取 息 取 到 的 网 页 内 容 ， 本 节 
将 对 BeautifulSoup 库 进 行 讲解 。 


9.3.1 BeautifulSoup 库 的 安装 


1.pip 命令 安装 
安装 BeautifulSoup 库 最 简单 的 方法 是 在 命令 行 输入 命令 pip install beautifulsoup4 进行 革 
安装 。 


二 级 Python 和 须 和 着 兹 现 


pip install beautifulsoup4 

2. 下 载 安装 包 安 装 

由 于 pip 命令 可 能 安装 失败 ， 所 以 有 时 需 通过 下 载 第 三 方 库 文件 来 进行 安装 。 安 装 包 
地 址 为 https:/www.crummy.com/software/BeautifulSoup/， 具 体 安 装 过 程 不 再 袭 述 。 安 装 后 
测试 BeautifulSoup 模块 是 否 安 装 正确 ， 在 交互 式 环境 中 输入 from bs4 import BeautifulSoup 
如 果 没 有 任何 报错 信息 ， 说 明 BeautifulSoup 模块 已 经 安装 成 功 。 


from bs4 import Beautifulsoup  # 导 入 Beautifulsoup 库 


9.3.2 BeautifulSoup 库 的 使 用 方法 


BeautifulSoup 库 可 以 解析 多 种 格式 的 文档 ， 因 此 可 被 用 作 不 同 的 解析 器 ， 各 种 解析 器 
的 使 用 方法 和 优 缺 点 如 表 9-3 所 示 。 


表 9-3 ”BeautifulSoup 库 不 同 解析 器 比较 


解析 器 使 用 方法 优点 缺点 
Python 标准 库 BeautifulSoup(markup, Python 的 内 置 标准 库 ， 执 行 速 文档 容错 能 力 差 
“html.parser”) 度 适 中 
lxml HTML 解析 器 ”BeautifulSoup(markup, “lxml”) 速度 快 ， 文 档 容错 能 力 强 需要 安装 C 语言 库 
lIxml XML 解析 器 。 BeautifulSoup(markup, “xml”) 速度 快 ， 唯 一 支持 XML 的 解 需要 安装 C 语言 库 
析 器 
html5lib BeautifulSoup(markup, 最 好 的 容错 性 ， 以 浏览 器 的 方 速度 慢 
“html5lib”) 式 解 析 文 档 ， 生 成 HTML5 格 
式 的 文档 


BeautifulSoup 支持 Python 标准 库 中 的 HTML 解析 器 ， 还 支持 第 三 方 解 析 器 ， 如 果 不 
安装 第 三 方 解 析 器 ， 则 会 使 用 Python 默认 的 解析 器 ， 第 三 方 解 析 器 中 lxml 解析 器 容错 能 
力 强 ， 速 度 更 快 ， 是 常用 的 第 三 方 解 析 器 。 本 节 将 具体 讲解 BeautifulSoup 中 lxml 解析 器 
的 使 用 方法 。 

为 了 更 好 地 理解 BeautifulSoup 的 使 用 方法 ， 本 节 抓 取 并 处 理 示 例 网 页 的 内 容 ， 地 址 为 
“http://python123.io/ws/demo.html”， 首 先 利用 requests 库 抓 取 示 例 网 页 内 容 ， 代 码 如 下 : 


import requests # 导 入 requests 库 
url='http://python123.io/ws/demo.html' # 定 义 抓 取 网 页 地 址 
Ey 
r=requests.get (url,timeout=30) # 请 求 超时 时 间 为 30 秒 
r.raise for status() # 如 果 状 态 不 是 200， 则 引发 异常 
r.encoding=r.apparent encoding # 配 置 编码 
print (r.text) # 输 出 部 分 信息 
except: 
print ("失败 ") 


抓 取 示例 网 页 输出 如 下 : 


<html><head><title>This is a python demo page</title></head> 

<body> 

<p class="title"><b>The demo python introduces several python courses. 
</b></p> 

<p class="course">Python is a wonderful general-purpose programming 
language. You can learn Python from novice to professional by tracking the 
following courses: 

<a href="http://www.icourse163.org/course/BIT-268001" class="pyl" id="linkl1"> 
Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" 
class="py2" id="link2">Advanced Python</a>.</P> 

</body></html> 


通过 抓 取 到 的 示例 网 页 内 容 可 知 ， 示 例 网 页 包括 不 同类 型 的 标签 以 及 CSS 类 ， 
BeautifulSoup 中 Ixml 解析 器 的 一 般 使 用 方法 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 BeautifulSsoup 库 
r=requests.get ("http://python123.io/ws/demo.html")  ”# 抓 取 网 页 内 容 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.title.string) # 输 出 title 标签 下 的 字符 


上 述 代码 通过 BeautifulSoup 库 提 取 了 示例 网 页 内 容 中 title 标签 下 的 字符 文本 , 输出 结 
果 如 下 : 


This is a python demo page 


在 处 理 与 提取 网 页 内 容 时 ，BeautifulSoup 库 有 标签 选择 器 、 标 准 选择 器 和 CSS 选择 器 
三 种 ， 不 同 选择 器 在 提取 网 页 内 容 时 略 有 不 同 ， 下 面 将 以 此 介绍 各 种 选择 器 的 使 用 方法 。 

1. 标签 选择 器 

利用 标签 选择 器 可 以 方便 地 提取 网 页 内 容 中 各 标签 的 元 素 、 名称、 属性、 内容 等 信息 ， 
要 获取 网 页 内 容 中 的 元 素 信息 ， 代 码 如 下 : 

import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 


r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (上 .text, "lxml") 间 使 用 1xml 解析 器 解析 网 页 内 容 


print (soup.title) # 输 出 title 信息 
print (type (soup.title)) # 输 出 title 类 型 
print (soup.head) # 输 出 head 信息 

print (soup.p) # 输 出 p 标签 信息 
上 述 代 码 输出 结果 如 下 : 


<title>This is a python demo page</title> 
<class 'bs4.element.Tag'> 


<head><title>This is a python demo page</title></head> 第 
<p class="title"><b>The demo python introduces several python courses.</b></p> 9 
章 


厨 经 猎 中 


<html><head><title>This is a python demo page</title></head> 

<body> 

<p class="title"><b>The demo python introduces several python courses. 
</b></p> 

<p class="course">Python is a wonderful general-purpose programming 
language. You can learn Python from novice to professional by tracking the 
following courses: 

<a href="http://www.icourse163.org/course/BIT-268001" class="pyl" id="linkl1"> 
Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" 
class="py2" id="link2">Advanced Python</a>.</P> 

</body></html> 


通过 抓 取 到 的 示例 网 页 内 容 可 知 ， 示 例 网 页 包括 不 同类 型 的 标签 以 及 CSS 类 ， 
BeautifulSoup 中 Ixml 解析 器 的 一 般 使 用 方法 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 BeautifulSsoup 库 
r=requests.get ("http://python123.io/ws/demo.html")  ”# 抓 取 网 页 内 容 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.title.string) # 输 出 title 标签 下 的 字符 


上 述 代码 通过 BeautifulSoup 库 提 取 了 示例 网 页 内 容 中 title 标签 下 的 字符 文本 , 输出 结 
果 如 下 : 


This is a python demo page 


在 处 理 与 提取 网 页 内 容 时 ，BeautifulSoup 库 有 标签 选择 器 、 标 准 选择 器 和 CSS 选择 器 
三 种 ， 不 同 选择 器 在 提取 网 页 内 容 时 略 有 不 同 ， 下 面 将 以 此 介绍 各 种 选择 器 的 使 用 方法 。 

1. 标签 选择 器 

利用 标签 选择 器 可 以 方便 地 提取 网 页 内 容 中 各 标签 的 元 素 、 名称、 属性、 内容 等 信息 ， 
要 获取 网 页 内 容 中 的 元 素 信息 ， 代 码 如 下 : 

import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 


r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (上 .text, "lxml") 间 使 用 1xml 解析 器 解析 网 页 内 容 


print (soup.title) # 输 出 title 信息 
print (type (soup.title)) # 输 出 title 类 型 
print (soup.head) # 输 出 head 信息 

print (soup.p) # 输 出 p 标签 信息 
上 述 代 码 输出 结果 如 下 : 


<title>This is a python demo page</title> 
<class 'bs4.element.Tag'> 


<head><title>This is a python demo page</title></head> 第 
<p class="title"><b>The demo python introduces several python courses.</b></p> 9 
章 


厨 经 猎 中 


二 级 Python 绑 杖 背 击 


获取 各 项 元 素 的 名 称 信 息 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 BeautifulSoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (r.text, "lxml") 砷 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.title.name) # 输 出 title 元 素 的 名 称 

上 述 代码 输出 结果 如 下 : 

title 


获取 元 素 的 属性 信息 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (上 .text, "lxml") 间 使 用 1xml 解析 器 解析 网 页 内 容 


Print (soup.a.attrs['href']) # 输 出 a 元 素 的 href 属性 
print (soup.a['href']) # 另 一 种 获取 a 元 素 的 href 属性 的 方法 
上 述 代 码 输 出 结果 如 下 : 


http://www.icoursel63.0rg/course/BIT-268001 
http://www.icoursel63.0rg/course/BIT-268001 


获取 元 素 的 内 容 信息 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (r.text, "lxml") 间 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.a.string) # 输 出 a 元 素 的 文本 内 容 


上 述 代码 输出 结果 如 下 : 
Basic Python 
在 提取 内 容 时 ， 也 可 以 嵌 套 提取 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import Beautifulsoup # 导 入 Beautifulsoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (上 .text, "lxml") 间 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.head.title.string) # 输 出 head 中 title 的 文本 内 容 


上 述 代码 输出 结果 如 下 : 


This is a python demo page 


在 提取 网 页 内 容 时 ， 可 提取 相应 元 素 的 子 节点 或 者 子孙 节点 ， 代 码 如 下 : 


import requests # 导 入 requests 库 
from bs4 import BeautifulSoup # 导 入 BeautifulSoup 库 


r=requests.get ("http://pythonl123.io/ws/demo.html") ## 抓 取 网 页 内 容 


soup=BeautifulSoup (上 -text, "1xml") 意 使 用 1xml 解析 器 解析 网 页 内 容 

# 以 列表 的 形式 返回 子 节点 

print (soup.p.contents) 

# 以 迭代 器 的 形式 返回 子 节点 

print (soup.p.children) 

for i,child in enumerate (soup.p.children): 
print (i,child) 

# 以 迭代 器 的 形式 返回 子孙 节点 

print (soup.p.descendants) 

for i,child in enumerate(soup.p.descendants): 
print (i,child) 


上 述 代 码 输出 结果 如 下 : 


[<b>The demo python introduces several python courses.</b>] 
<list iterator object at 0x0000000003BD6080> 

0 <b>The demo python introduces several python courses.</b> 
<generator object descendants at 0x0000000003B7CF10> 

0 <b>The demo python introduces several python courses.</b> 
1 The demo python introduces several python courses. 


在 提取 网 页 内 容 时 ， 可 提取 相应 元 素 的 父 节点 或 者 祖先 节点 ， 代 码 如 下 : 


import requests # 导 入 requests 库 
from bs4 import Beautifulsoup # 导 入 BeautifulSoup 库 


r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 


soup=BeautifulSoup (上 .text, "lxml") 间 使 用 Lxml 解析 器 解析 网 页 内 容 
# 获 取 a 标签 的 父 节 点 

print (soup.a.parent) 

# 获 取 a 标签 的 父 节 点 和 祖先 节点 


print (list (enumerate (soup.a.parents))) 
上 述 代 码 输出 结果 截取 部 分 如 下 : 


<p class="course">Python***courses: 

<a class="pyl"**Python</a>.</p> 

[(0, <p class="course">Python**courses: 

<a class="pyl"**Python</a>.</p>), (1，<body> 

<p class="title"><b>The**courses.</b></p> 

<p class="course">Python**courses: 

<a class="pyl"**Python</a>.</p> 

</body>), (2, <html><head><title>This**page</title></head> 


司 乱 雇 区 


二 级 Python 盘 兰 网 摧 


<body> 

<p class="title"><b>The**courses.</b></p> 

<p class="course">Python***courses: 

<a class="pyl"**Python</a>.</p> 

</body></html>), (3, <html><head><title>This*page</title></head> 
<body> 

<p class="title"><b>The*…courses.</b></p> 


<p class="course">Python**courses: 
<a class="pyl"**Python</a>.</p> 
</body></html>)] 


在 提取 网 页 内 容 时 ， 可 提取 相应 元 素 的 兄弟 节点 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (上 .text, "1xml") 间 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.p.previous siblings) # 输 出 上 一 个 兄弟 节点 

print (soup.p.next siblings) # 输 出 下 一 个 兄弟 节点 


上 述 代 码 输出 结果 如 下 : 


<generator object previous siblings at 0x0000000003B7CF10> 
<generator object next siblings at 0x0000000003B7CF10> 


2. 标准 选择 器 
标准 选择 器 主要 通过 find_ all 或 者 find 命令 查找 名 称 或 者 属性 ， 从 而 提取 相应 内 容 ， 
find_all 命令 返回 符合 条 件 的 所 有 内 容 ， 可 通过 名 称 进行 查找 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 

r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 

soup=BeautifulSoup (r.text, "lxml") 间 使 用 1xml 解析 器 解析 网 页 内 容 

print (soup.find all("p")) # 输 出 所 有 名 称 为 p 的 内 容 列 表 

for item in soup.find all("p") : # 在 名 称 为 P 的 内 容 中 ， 输 出 含有 a 的 内 容 
print (item.find all("a")) 


首先 输出 所 有 名 称 为 p 的 内 容 列 表 ， 然 后 在 所 有 名 称 为 p 的 内 容 中 ， 输 出 含有 a 的 内 
容 ， 输 出 结果 如 下 : 


[<p class="title"><b>The demo python introduces several python courses. 
</b></p>, <p class="course">Python**courses: 

<a class="pyl" href="http://www…/BIT-268001" id="linkl">Basic Python</a> 
and <a class="py2" href="http:…BIT-1001870001" id="link2">Advanced Python 
</a>.</p>] 


[] 

[<a class="pyl" href="http://www*…BIT-268001" id="linkl">Basic Python</a>, 
<a class="py2" href="http://www.icoursel63.o0rg/course/BIT-1001870001" 
id="link2">Advanced Python</a>] 


标准 选择 器 也 可 通过 属性 进行 查找 ， 如 id，class 等 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 BeautifulSoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (上 .text, "lxml") ” 提 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.find alll(attrs={"id":"link2"})) 

print (soup.find alll(attrs={"class":"title"})) 

print (soup.find all(id="link2")) 

Print (soup.find all(class ="title")) 


上 述 代码 输出 结果 如 下 : 


[<a class="py2" href="http://www.icoursel63.0org/course/BIT-1001870001" 
id="link2">Advanced Python</a>] 

[<p class="title"><b>The demo python introduces several python courses. 
</b></p>] 

[<a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" 
id="link2">Advanced Python</a>] 

[<p class="title"><b>The demo python introduces several python courses. 
</b></p>] 


标准 选择 器 除了 find_all 和 find 命令 外 ， 还 有 其 他 命令 ， 如 表 9-4 所 示 。 
表 9-4 标准 选择 器 命令 


命名 说 明 

find_parents() 返回 所 有 祖先 节点 

find_parent() 返回 直接 父 节点 
find_next_siblings() 返回 后 面 所 有 兄弟 节点 
find_next_sibling() 返回 后 面 第 一 个 兄弟 节点 
find_previous_siblings() 返回 前 面 所 有 的 兄弟 节点 
find_previous_sibling() 返回 前 面 第 一 个 的 兄弟 节点 
find all nextO 返回 节点 后 所 有 符合 条 件 的 节点 
find_next() 返回 节点 后 第 一 个 符合 条 件 的 节点 
find_all previousO) 返回 节点 后 所 有 符合 条 件 的 节点 
find previousO) 返回 第 一 个 符合 条 件 的 节点 


以 上 命令 使 用 方法 与 find_all 命令 类 似 ， 不 再 袭 述 。 

3. CSS 选择 器 

CSS 选择 器 通过 selectO 直 接 传 入 CSS 选择 器 即 可 完成 选择 ， 可 获取 名 称 、 属 性 或 文 | 第 
本 内 容 ， 从 而 提取 相应 内 容 ， 代 码 如 下 : 9 


司 经 猎 中 


二 级 Python 状 奉 背 击 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 BeautifulSoup 库 
r=requests.get ("http://python123.io/ws/demo.html") 井 抓 取 网 页 内 容 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 

print (soup.select (".title b")) # 输 出 class 为 上 title 中 标签 为 b 的 内 容 
print (soup.select ("#1ink2")) # 输 出 id 为 1ink2 的 内 容 


在 提取 过 程 中 ， 提 取 class 项 在 class 名 前 加 “.”， 提 取 id 项 在 id 前 加 “#”， 其 他 项 不 
加 前 级 ， 输 出 结果 如 下 : 


[<b>The demo python introduces several python courses.</b>] 
[<a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" 
id="link2">Advanced Python</a>] 


利用 CSS 选择 器 提取 的 内 容 为 符合 条 件 的 所 有 内 容 ， 即 返回 值 为 列表 ， 如 果 要 继续 提 
取 下 属 内 容 ， 使 用 [0] 提 取 符合 条 件 的 第 一 条 内 容 ， 再 继续 进行 属性 等 的 提取 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.select ("#1ink2") [0] ["class"]) # 输 出 id 为 link2 中 的 class 属性 
print (soup.select ("#1ink2") [0] .attrs["class"]) # 同 上 功能 的 另 一 种 形式 

上 述 代码 输出 结果 如 下 : 

['py2"] 

['py2"] 


利用 CSS 选择 器 也 可 获得 标签 里 的 文本 内 容 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("http://python123.io/ws/demo.html") # 抓 取 网 页 内 容 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup.select ("#1ink2") [0] .get text ()) # 输 出 id 为 1ink2 中 的 文本 内 容 
上 述 代 码 输 出 结果 如 下 : 


Advanced Python 


9.3.3 ”BeautifulSoup 库 的 应 用 案例 


【 例 9-4】 扑 取 豆 辩 读书 书目 。 利 用 BeautifulSoup 库 可 提取 息 取 网 页 的 内 容 ， 得 到 有 
价值 的 信息 ， 如 提取 豆 光 读书 页 面 中 的 书目 信息 ， 豆 办 读书 页 面 地 址 为 https://book. 
douban.com/， 页 面 如 图 9-4 所 示 。 


豆 痢 读书 。 .所 加 


购书 单 。 电子 图 书 。 豆 蕉 书店 。 2017 年 度 榜 单 。 2017 读 书 报告 。 情 购 物 车 


新 书 速递 更 多 ， 
[Ls 
六 江 网 校 9 周年 感 轧 回 饮 
记 程 学 完 。 
全 疾 牧 还 
5 限时 抢 > 4 
假如 真有 时 光 机 i. 
[日 1 村 上 春 村 


热门 标签 ”所 有 热门 标 答 y 


务 域 格林 文集 Cubed 
鸿 外 


候 乌 的 勇 政 再 域 殉 扑 安稳 的 美国 人 隔 间 
迟 子 建 [日 | 内 莫 湖 南 | 英 | 格 备 厄 姆 [ 美 ] 尼 基 尔 萨 


图 9-4 豆瓣 读书 页 面 


首先 利用 requests 库 爬 取 网 页 内 容 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("https://book.douban.com/") # 抓 取 豆 辩 读 书 内 容 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup) # 输 出 爬 取 到 的 内 容 


输出 结果 为 豆 准 读书 网 页 html 代码 ， 可 看 到 书目 信息 结构 如 下 : 


<div class="bd"><div class="carousel"><div class="slide-list"> 

<ul class="]list-col list-col5 list-express slide-item"><]1i class=""> 
<div class="cover"><a href="https://book.douban.com/subject/30194861/?icn= 
index-editionrecommend" title=" 迷宫 森 林 "><img alt=" 迷宫 森 林 " class="" 
height="172px" src="https://imgl.doubanio.com/view/subject/m/public/s29740437.jpg" 
width="115px"/> 

</a></div><div class="intervenor-info"> 

<img class="jd-icon" height="16" src="https://img3.doubanio.com/f/book/ 
ef040178fabl770d60e3f2fl2ba4c7aa70714396/pics/book/partner/jd recommend 
.png" width="16"/> 

<span> 推 荐 </span> 

</div><div class="info"><div class="title"><a class="" href="https://book. 
douban.com/subject/30194861/?icn=index-editionrecommend" title=" 迷 宫 森 林 "> 3 
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迷宫 森林 </a> 
</div><div class="author"> 
[ 美 ] 梅 利 莎 。 阿尔 伯 特 
</div> 
<div class="more-meta"><h4 class="title"> 
迷宫 森林 
</h4><p><span class="author"> 
[ 美 ] 梅 利 莎 。 阿尔 伯 特 
</span> 
<span class="year"> 
2018=3 
</span> 
Ww 
<span class="publisher"> 
百花 洲 文艺 出 版 社 
</span></p><p class="abstract"> 
17 岁 … 机 缘 巧 合 ，… 
</p> 
</div></div></1i> 


以 上 信息 为 某 一 书目 的 html 代码 ,由 于 篇 幅 有 限 在 内 容 上 进行 了 一 定 的 截取 , 但 结构 
与 原 html 代码 一 致 。 在 息 取 到 的 豆瓣 读书 html 代码 中 ， 还 可 看 到 类 似 的 其 他 书目 信息 ， 
结构 与 上 述 代码 结构 一 致 。 通 过 观察 发 现 , 所 有 书目 信息 都 放 在 “<ul class="list-col list-col5 
list-express slide-item">…</ul>” 里 ， 每 条 书目 在 “<ul>” 标 签 里 的 “<li> ”标签 里 ， 包 含 
书目 相关 信息 ， 包 括 书 名 、 作 者 等 ， 首 先 提取 书 名 ， 其 中 书 名 被 包含 在 “class” 为 “cover” 
的 标签 里 ， 在 “a” 标 签 中 的 “title” 里 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 BeautifulSoup 库 
r=requests.get ("https://book.douban.com/") # 抓 取 豆瓣 读书 内 容 
soup=BeautifulSoup (r.text, "lxml") 使 用 1xml 解析 器 解析 网 页 内 容 
for li in soup.select('.1ist-express 1i'): # 提 取 网 页 上 所 有 书目 信息 


print (li.select('.cover') [0] .a['title']) # 提 取 书 目的 书 名 


在 上 述 代码 中 ， 利 用 BeautifulSoup 库 的 CSS 选择 器 提取 书目 信息 ， 因 为 “li.select 
(.cover)” 返 回信 息 为 列表 ,所 以 需 将 列表 的 第 一 个 元 素 提取 ,即使 用 “li.select(.cover)[0]” 
命令 ， 通 过 提取 返回 页 面 的 所 有 书目 的 书 名 ， 部 分 输出 结果 如 下 : 


迷宫 森林 

假如 真有 时 光 机 

读书 毁 了 我 

每 一 天 梦想 练习 

纽约 : 一 座 超级 城市 是 如 何 运转 的 


按照 结构 依次 提取 所 有 书目 的 相关 信息 ,包括 书目 链接 、 书 名 、 作 者 、 出 版 日 期 信息 ， 
代码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("https://book.douban.com/") # 抓 取 豆 准 读 书 内 容 
soup=BeautifulSoup (r.text, "lxml") 砷 使 用 1xml 解析 器 解析 网 页 内 容 


for li in soup.select('.1ist-express 1i'): # 提 取 网 页 上 所 有 书目 信息 
urlTit = li.select(' .cover') 
printl(urlritl0l.al hret'], end=™ ™) # 提 取 书 目 链接 
print (urlTit[0] .a['title'],end=" ") # 提 取 书 名 
print (li.select('.info p .author') [0] .string.strip(),end=" ")# 提 取 作 者 
print (li.select('.info p .year') [0] .string.strip()) # 提 取出 版 日 期 


上 述 代码 部 分 输出 结果 如 下 : 


https://book.douban.com/subject/30194861/?icn=index-editionrecommend 迷宫 
森林 [ 美 ] 梅 利 莎 。 阿 尔 伯 特 2018-5 
https://book.douban.com/subject/30177173/?icn=index-editionrecommend 假如 
真有 时 光 机 [日 ] 村 上 春 树 2018-5-1 
https://book.douban.com/subject/30180756/?icn=index-editionrecommend 读书 
毁 了 我 王强 2018-3 


利用 BeautifulSoup 库 的 标准 选择 器 或 标签 选择 器 同样 可 实现 提取 , 利用 标准 选择 器 提 
取 豆瓣 读书 书目 信息 代码 如 下 : 


import requests # 导 入 requests 库 
from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
r=requests.get ("https://book.douban.com/") # 抓 取 豆 辩 读书 内 容 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 


for ul in soup.find alll(class ="]list-col list-col5 list-express slide- 
item"): 
To I nl Ene a 

urlTit = 1i.find(class ='cover') 

print(UriTit.al href"], end=™ ™) # 提 取 书 目 链接 

print (urliTit.al'title], end=" ™) # 提 取 书 名 

print (1i.find(class ='author') .string.strip(), end=" ") # 提 取 作 者 

print (1i.find(class ='year') .string.strip()) # 提 取出 版 日 期 


输出 结果 与 利用 CSS 选择 器 提取 的 结果 一 致 ， 部 分 结果 如 下 : 


https://book.douban.com/subject/30194861/?icn=index-editionrecommend 迷宫 
森林 [ 美 ] 梅 利 莎 * 阿尔 伯 特 2018-5 
https://book.douban.com/subject/30177173/?icn=index-editionrecommend 假如 


真有 时 光 机 [日 ] 村 上 春 树 2018-5-1 第 
https://book.douban.com/subject/30180756/?icn=index-editionrecommend 读书 9 
章 


厨 经 猎 中 


二 级 Python 顷 厦 背 直 
毁 了 我 王强 2018-3 
【 例 9-$S】 疏 取 猫眼 电影 TOP100 榜 。 上 例 中 息 取 了 豆 》 


对 简单 ， 在 此 例 中 息 取 猫眼 电影 TOP100 榜 的 100 部 电影 信 
com/board/4?， 页 面 如 图 9-5 所 示 。 


读书 页 面 的 书目 信息 ， 页 面相 
息 ， 页 面 地 址 为 http://maoyan. 


图 He we- mr ms sm Orrs se @ 


霸王 别 毁 


ES 张丰毅 册 仙 
I D1-01( 中 国生 油 


肖申克 的 救赎 


主演 : 旨 妆 罗 宾 基 摩根 名 里 号 她 很 内 邮 
994-10-14( 美 加 


PE 
[Lie] 


如” 罗马 假日 


主演; 格 利 高 利 派 克 丘 旬 丽 苍术, 块 演 , 艾 们 符 


图 9-5 猫眼 电影 TOP100 页 面 
通过 浏览 网 页 可 发 现 ， 每 个 页 面 有 10 部 电影 信息 ， 一 共有 10 页 ， 如 图 9-6 所 示 。 
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图 9-6 猫眼 电影 TOP100 分 页 


每 个 页 面 的 访问 地 址 不 同 ， 首 先 爬 取 第 一 页 中 的 10 部 电影 信息 ， 利 用 requests 库 爬 取 
获得 页 面 的 所 有 html 内 容 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import Beautifulsoup # 导 入 BeautifulSsoup 库 
r=requests.get ("http://maoyan.com/board/4?2") ”# 抓 取 猫 眼 电 影 页 面 内 容 
soup=BeautifulSoup (r.text, "lxml") ## 使 用 1xml 解析 器 解析 网 页 内 容 
print (soup) # 输 出 假 取 到 的 内 容 

截取 部 分 输出 结果 如 下 : 

<header> 


<h3><span class="icon">DD</span> 
很 抱 鞭 ， 您 的 访问 被 禁止 了 </h3> 
</header> 
<main> 
<p> ”如 何 恢复 ? </p> 
<O1> 
人 
您 可 以 尝试 切换 网 络 环境 ， 例 如 : 关闭 Wi-Fi、 关 闭 VPN 等 网 络 代理 再 尝试 访问 
SL 
ee 


如 果 您 认为 当前 网 络 的 封禁 是 误 报 ， 请 提交 您 的 联系 方式 ， 以 便 我 们 核实 


通过 上 述 结果 可 知 ， 请 求 网 站 并 没有 返回 想 要 的 内 容 ， 这 是 因为 该 网 站 加 入 了 反扑 虫 
机 制 。 有 些 网 站 为 了 防止 有 人 利用 疏 虫 程序 进行 恶意 网 站 攻击 ， 会 加 入 一 些 反 疏 虫 机 制 ， 
其 中 比较 常用 的 是 辨别 请 求 头 信息 。 浏 览 器 在 向 服务 器 发 起 网 络 请 求 的 时 候 ， 都 会 发 送 一 
个 头 文件 ， 即 “headers”， 比 如 猫眼 电影 的 “requests headers” 如 下 : 


Accept :text/html,application/xhtml+xml,application/xml;q=0.9,image/webp 
1,*/*;q=0.8 

Accept-Encoding:gzip, deflate, sdch 

Accept-Language:zh-CN, zh;q=0.8 

Cache-Control :max-age=0 

Connection:keep-alive 

Cookie:uuid=1A6E888..886FF1; mta=1549..2.117 lxsdk s=%7C%7C0O 

Host :maoyan .com 

Upgrade-Insecure-Requests:1 

User-Agent :Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, 

like Gecko) Chrome/55.0.2883.87 Safari/537.36 


上 述 头 部 信息 中 的 大 多 数字 段 都 是 浏览 器 向 服务 器 “表明 身份 ”的 ， 服 务 器 根据 请 求 
头 信息 判断 发 起 请 求 的 是 浏览 器 还 是 爬虫 程序 ， 如 果 有 头 部 信息 ， 服 务 器 认为 是 浏览 器 发 
起 的 请 求 ， 也 就 是 用 户 ， 服 务 器 将 正常 返回 网 页 内 容 ， 如果 没 有 头 部 信息 ， 服 务 器 认为 是 | 9 
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扑 虫 程序 发 起 的 请 求 ， 不 会 返回 正常 的 网 页 内 容 。 所 以 息 虫 程序 在 访问 具有 这 种 反扑 虫 机 
制 的 网 站 时 ， 会 在 发 起 请 求 时 加 入 头 部 信息 ， 将 自己 伪装 成 浏览 器 ， 代 码 如 下 : 


import requests # 导 入 requests 库 
from bs4 import BeautifulSoup # 导 入 BeautifulsSoup 库 
# 定 义 头 部 信息 


header = { 

'Accept': 'text/html,application/xhtml+xml..q=0.8", 
'Accept-Encoding': 'gzip, deflate, sdch', 

'Accept-Language': 'zh-CN,zh;q=0.8"', 

"Cache-Control': ‘max-age=0", 

"Connection': 'keep-alive', 

'Cookie': ‘'uuid=]1A6E888..886FF]1; mta=1549..2.11; lxsdk s=%7C%7C0;', 
'Host': 'maoyan.com', 

"Upgrade-Insecure-Redquests': '1', 

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} 


r=requests.get ("http://maoyan.com/board/4?"，headers=header)# 加 入 头 部 信息 
soup=BeautifulSoup (上 .text, "lxml") 间 使 用 lxml 解析 器 解析 网 页 内 容 
print (soup) # 输 出 候 取 到 的 内 容 


在 requests.get() 方 法 中 加 入 请 求 头 信息 ， 此 时 返回 结果 为 网 页 正常 html 代码 ， 部 分 输 
出 结果 如 下 : 


<dl class="board-wrapper"> 
<dd> 
<i class="board-index board-index-1">1</i> 
<a class="image-link" data-act="boarditem-click" data-val="{movieId:1203}" 
href="/films/1203" title=" 霸 王 别 姑 "> 
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/ 
loading 2.e3d934bf.png"/> 
<img alt=" 霸 王 别 娘 " class="board-img" data-src="http://pl.meituan.net/ 
movie/20803£f59291c47elel16c11963ce019e68711.jpg@160w 220h le lc"/> 
</a> 
<div class="board-item-main"> 
<div class="board-item-content"> 
<div class="movie-item-info"> 
<p class="name"><a data-act="boarditem-click" data-val="{movieId:1203}" 
href="/films/1203" title=" 霸 王 别 姑 "> 霸 王 别 姬 </a></p> 
<p class="star"> 
主演 : 张国荣 ,张丰毅 , 巩俐 

</p> 
<p class="releasetime"> 上 映 时 间 : 1993-01-01 (中 国 香港 )</p> </div> 
<div class="movie-item-number score-num"> 


<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p> 


以 上 信息 为 一 部 电影 的 html 代码 ， 由 于 篇 幅 有 限 在 内 容 上 进行 了 一 定 的 截取 ,但 结构 
与 原 html 代码 一 致 。 在 仆 取 到 的 猫眼 电影 页 面 html 代码 中 ， 还 可 看 到 类 似 的 其 他 电影 信 
息 ， 结 构 与 上 述 代码 结构 一 致 。 通 过 观察 发 现 ， 每 部 电影 信息 都 放 在 “<dd> ”标签 里 ， 包 
括 电影 名 称 、 演 员 信息 、 评 分 以 及 电影 封面 等 信息 ， 首 先 提取 电影 名 ， 其 被 包含 在 “class” 
为 “movie-item-info” 下 属 的 “name” 标 签 里 ， 代 码 如 下 : 


import requests # 导 入 requests 库 
from bs4 import BeautifulSoup # 导 入 BeautifulSsoup 库 
# 定 义 头 部 信息 


header = { 
'Accept': 'text/html,application/xhtml+xml**q=0.8°', 
下 


LT=requests.get("http://maoyan.com/board/4?"，headers=header)# 加 入 头 部 信息 
soup=BeautifulSoup (r.text, "lxml") # 使 用 1xml 解析 器 解析 网 页 内 容 
for li in soup.select('dd') : # 提 取 每 部 电影 信息 


print (li.select('.movie-item-info .name') [0] .string.strip()) # 电 影 名 
上 述 代 码 输出 结果 如 下 : 


霸主 别 妨 
肖申克 的 救赎 
罗马 假日 

这 个 杀手 不 太 冷 
教父 

泰坦 尼克 号 
龙 猫 
唐伯虎 点 秋香 
魂 断 蓝 桥 

千 与 千 寻 


按照 结构 依次 提取 当前 页 面 10 部 电影 信息 ， 包 括 电 影 封 面 、 电 影 名 、 主 演 、 上 了 映 时 
间 和 评分 信息 ， 代 码 如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
header = { 

'Accept': "text/html,application/xhtml+xm1..q=0.8"， 

} 

# 以 上 定义 头 部 信息 


r=requests.get ("http://maoyan.com/board/4?", headers=header)# 加 入 头 部 信息 
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soup=BeautifulSoup (上 .text, "lxml") 非 使 用 1xml 解析 器 解析 网 页 内 容 

for li in soup.select('dd'): 
print (1i.select(' .board-img') [0] ['data-src'],end=" ") # 电 影 封 面 
p = li.select('.movie-item-info') [0] 
print (p.select('.name') [0] .string.strip(),end=" ") # 电 影 名 
print(p.select('.star') [0] .string.strip(),end=" ") # 主 演 
print (p.select (' .releasetime') [0] .string.strip(),end=" ") ， # 上 映 时 间 
score = li.select('[class="movie-item-number score-num"]') [0] # 评 分 
print (score.select('.integer') [0] .string.strip(), end=" ") 
print (score.select('.fraction') [0] .string.strip()) 


上 述 代码 部 分 输出 结果 如 下 : 


http://pl.meituan.net/movie/208...711.jpg8160w_220h le_1lc 霸主 别 娘 主演 : 张 
国 荣 , 张 丰 毅 , 巩俐 上 映 时 间 : 1993-01-01 (中 国 香港 ) 9. 6 
http://p0.meituan.net/movie/ 4019...h le lc 肖申克 的 救赎 主演 : 带 姆 。 罗 宾 斯 ， 

摩根 。 弗 里 曼 , 鲍 勃 。 冈 顿 上 映 时 间 : 1994-10-14 (美国 ) 9. 5 
http://p0.meituan.net/movie/23/6009725.jpgel60w 220h le _1c 罗马 假日 主演 : 
格 利 高 利 。 派克, 奥 袋 丽 。 赫 本, 埃 迪 。 艾 伯 特 上 映 时 间 : 1953-09-02 (美国 ) 9. 1 
http://p0.meituan.net/movie/fc9...304.jpgel60w 220h le lc 这 个 杀手 不 太 冷 
主演 : 让 。 和 雷诺 ,加 里 。 奥 德 曼 , 娜 塔 莉 。 波 特 螺 上 映 时 间 : 1994-09-14 (法 国 ) 9. 5 
http://p0.meituan.net/movie/92/8212889.jpgel60w 220h le lc 教父 主演 : 马 
龙 。 白 兰 度 , 阿尔 。 帕 西 诺 , 詹姆斯 * 凯 恩 上 映 时 间 : 1972-03-24 (美国 ) 9. 3 


通过 以 上 方法 仆 取 了 一 个 页 面 中 10 部 电影 的 信息 ， 现 要 疏 取 榜 单 100 部 电影 的 信息 。 
单 击 猫 眼 电影 网 页 的 不 同 页 码 ， 第 二 页 的 地 址 为 “http://maoyan.com/board/4?offset=10”， 
第 三 页 的 地 址 为 “http://maoyan.com/board/4?offset=20”， 观 察 发 现 ， 每 页 都 在 原 有 地 址 上 
增加 “offset=x”， 其 中 x 为 10 的 倍数 ， 所 以 可 通过 循环 方式 依次 爬 取 其 他 页 面 ， 得 到 所 有 
电影 信息 ， 代 码 如 下 : 


import requests # 导 入 requests 库 
from bs4 import BeautifulSoup # 导 入 BeautifulSoup 库 
# 定 义 头 部 信息 


neader = 
'Accept': 'text/html,application/xhtml+xml...q=0.8', 
2 
# 以 下 为 循环 方式 依次 取得 不 同 页 面 的 电影 信息 
for offset in range(10): 
url = "http://maoyan.corm/board/42?offset=' + str(offset*10) # 定 义 地 址 
r=requests.get (url，headers=header) # 抓 取 猫 眼 电影 网 页 内 容 
soup=BeautifulSsoup(r.text,"lxml") 间 使 用 1xml 解析 器 解析 网 页 内 容 
for li in soup.select('dd'): 
Print(1i.select('.-board-img') [0] ['data-src'],end=" ") # 电 影 封 面 
p = li.select('.movie-item-info') [0] 
print (p.select (' .name') [0] .string.strip(),end=" ") # 电 影 名 
print (p.select ('.star') [0] .string.strip(),end=" ") # 主 演 


Print(p-select('-releasetime')[0] .string.strip(),end=" ") 

score = li.select(' [class="movie-item-number score-num"]') [0]# 评 分 
print (score.select('.integer') [0] .string.strip(), end=" ") 

print (score.select('.fraction') [0] .string.strip()) 


通过 上 述 方法 ， 顺 利 输出 了 100 部 电影 信息 ， 部 分 输出 结果 如 下 : 
http://pl.meituan.net/movie/208...711.jpg8@160w_220h le _1c 霸王 别 娘 主演 : 张 
国 荣 , 张丰毅 ,巩俐 上 映 时 间 : 1993-01-01 (中 国 香港 ) 9. 6 
http://p0.meituan.net/movie/ 4019...h le lc 肖申克 的 救赎 主演 : 带 姆 。 罗 宾 斯 ， 
摩根 。 弗 里 曼 , 鲍 勃 。 冈 顿 上 映 时 间 : 1994-10-14 (美国 ) 9. 5 


http://p0.meituan.net/movie/23/6009725.jpg@160w 220h le 1c 罗马 假日 主演 : 
格 利 高 利 。 派克, 奥 黛 丽 。 赫 本 , 埃 迪 。 艾 伯 特 上 映 时 间 : 1953-09-02 (美国 ) 9. 1 


100 部 电影 信息 
http://p0.meituan.net/movie/5102b3f7261lcaa09clc9b1212f09cclf461902.png@ 
160w_ 220h le 1c 英雄 本 色 主演 : 狄龙 , 张国荣, 周润发 上 映 时 间 : 2017-11-17 9. 2 


通过 网 络 怜 虫 疏 取 的 数据 是 数据 采集 的 重要 部 分 ， 可 将 采集 到 的 数据 存储 到 相应 的 文 
件 中 ， 以 便 后 续 数据 分 析 工 作 使 用 ， 此 例 中 将 数据 以 json 格式 存储 到 文本 文件 中 ， 代 码 
如 下 : 


import requests # 导 入 requests 库 

from bs4 import BeautifulSoup # 导 入 Beautifulsoup 库 
import json # 导 入 json 

# 定 义 头 部 信息 


header = { 

'Accept': 'text/html,application/xhtml+xml...q=0.8', 

2 

# 以 下 为 循环 方式 依次 取得 不 同 页 面 的 电影 信息 

for offset in range(10): 
url = 'http://maoyan.com/board/4?offset=' + str(offset*10) 间 定 义 地 址 
r=requests.get (url，headers=header) # 抓 取 猫 眼 电 影 网 页 内 容 
soup=BeautifulSoup (上 .text, "1xml") ， 间 使 用 1xzml 解析 器 解析 网 页 内 容 
for 1i in soup.select('dd') : 


movieImg = li.select('.board-img') [0] ['data-src'] # 电 影 封 面 
p = li.select('.movie-item-info') [0] 

movieName = p.select('.name') [0] .string-strip() # 电 影 名 
movieActor = p.select ('.star') [0] .string.strip() # 主 演 


releaseTime = p.select(' .releasetime') [0] .string-strip()# 上 了 映 时 间 
score = li.select('[class="movie-item-number score-num"]')[0]# 评 分 
integer = score.select('.integer') [0] .string.strip() 

fraction = score.select('.fraction') [0] .string.strip() 


# 将 数据 存储 相应 格式 


content = { 
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"movieImg' :movieImg, # 电 影 封 面 
"movieName' :movieName, # 电 影 名 
'movieActor': movieActor, # 主 演 


"releaseTime': releaseTime， # 上 映 时 间 
"score' : integer+fraction # 评 分 

' 

塌 将 数据 集 存储 到 文件 中 

with open('result.txt'，"a'，encoding='utf-8") as 工 : 
f.write(json.dumps (Content，ensure ascii=False) + '\n') 


f.close() 
通过 上 述 代码 将 网 络 怜 虫 疏 取 到 的 数据 存放 到 指定 的 文件 中 ， 结 果 如 图 9-7 所 示 。 
入 eeucbt -记事 本 三 于 其 


“aovieNaxe“: “二 王刚 好 “: 王 沉 ,张国荣 ^ 
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这 个 杀手 1 : "主演 
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图 9-7 ”存储 爬 取 数据 
这 样 将 礁 取 到 的 数据 存放 到 指定 文件 中 ， 供 后 续 数据 分 析 使 用 。 


本 章 小 


本 章 主要 介绍 了 网 络 爬 虫 的 概念 和 基本 原理 , 以 及 利用 Python 实现 网 络 爬 虫 的 主要 方 
法 ， 通 过 怜 取 新 闻 网 页 内 容 、 相 关 商 品 信息 、 搜 索引 擎 等 实际 案例 讲解 了 利用 requests 库 
的 requests.get() 和 requests-postO 等 抓 取 网 页 内 容 的 主要 使 用 方法 ， 以 及 通过 疏 取 豆 辩 读书 
的 数目 信息 和 猫眼 电影 的 电影 信息 实际 案例 讲解 了 利用 BeautifulSoup 库 的 标签 选择 器 、 标 
准 选择 器 和 CSS 选择 器 处 理 与 提取 相关 内 容 的 主要 方法 。 通过 对 本 章 的 学 习 , 读者 能 够 对 
Python 相关 疏 虫 库 和 网 络 爬 虫 的 实现 方法 有 一 定 的 了 解 和 掌握 。 
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导 学 

本 章 主要 讲解 有 关 Python 图 像 操作 与 处 理 的 基础 知识 , 将 通过 大 量 示 例 介 绍 处 理 图 像 
所 需 的 Python 图 像 处 理 类 库 Pillow， 并 介绍 用 于 读 取 图 像 、 图 像 转换 和 缩放 、 画 图 和 保存 
结果 等 基本 操作 函数 。 

了 解 : 图 像 处 理 类 库 Pillow 的 安装 和 PIL 的 基本 概念 。 

掌握 : 图 像 处 理 类 库 PIL 的 常用 模块 ，Image 模块 、ImageChops 模块 、ImageDraw 模 
块 、ImageEnhance 模块 、ImageFilter 模块 和 ImageFont 模块 的 使 用 。 并 掌握 PIL 对 图 像 的 
基本 操作 ， 包 括 图 像 格 式 的 转换 、 创 建 缩 略图 、 图 像 的 复制 和 粘贴 以 及 几何 变换 。 


10.1 图 像 处 理 类 库 Pillow 的 安装 


图 像 处 理 类 库 PIL (Python Imaging Library Python) 提供 了 通用 的 图 像 处 理 功 能 和 基 
本 图 像 操 作 ， 主 要 包括 图 像 储存 、 图 像 显示 、 格 式 转换 、 图 像 缩 放 、 裁 前 、 旋 转 、 颜 色 转 

Pillow (Python Imaging Library(Fork)) 是 PIL 的 一 个 派生 分 支 ， 支 持 JPEG、PNG、 
GIF、BMP 等 多 种 图 像 格 式 。 目 前 最 新 版 本 是 3.0.0。 

Pillow 的 Github 主页 : https://github.com/python-pillow/Pillow。 

Pillow 的 文档 (对 应 版 本 v3.0.0 ): https://pillow.readthedocs.org/en/latest/handbook/ 
index.html。 

Pillow 的 文档 中 文 翻译 (对 应 版 本 v2.4.0): http://pillow-cn.readthedocs.org/en/latest/。 

下 面 介绍 Pillow 在 Windows 平台 的 安装 。 

(1) 在 命令 行使 用 pip 安装 : 


pip install pillow 


(2) 在 命令 行使 用 easy_install 安装 : 


easy_install pillow 


安装 完成 后 ， 使 用 from PIL import Image 引用 使 用 库 。 
例如 使 用 PIL 读 取 图 像 : 


from PIL import Image # 导 入 库 
file ='D:\\python\\shutu.jpg' # 定 义 图 片 地 址 
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img = Image.open (file,mode="'r') # 读 取 文件 内 容 

img. show () # 展 示 图 像 内 容 

其 中 的 open 方法 包含 以 下 两 个 参数 。 

(1) file: 文件 对 象 名 称 ， 可 以 是 文件 名 ， 也 可 以 是 图 像 文 件 字符 串 。 

(2) mode: 打开 模式 ， 默 认 只 能 是 模式， 否则 会 报错 ; 当 file 是 图 像 字 符 串 时 ， 会 
调用 系统 的 tb 模式 读 取 。 
通过 open 读 取 之 后 会 返回 一 个 图 像 文件 对 象 ， 后 续 所 有 的 图 像 处 理 都 基于 该 对 象 进 
行 。 上 述 代码 执行 后 ， 通 过 img.show() 会 调用 系统 默认 的 图 像 浏览 器 打开 图 像 进行 查看 ， 
如 图 10-1 所 示 。 


转 


虚拟 现实 与 . 
| 增强 现实 技术 导论 


站 
拟 
再 
实 
与 
增 
强 
现 
实 
接 
术 
上 
论 


图 10-1 调用 img.show0 展 示 图 像 


10.2 图像 处 理 类 库 PIL 的 基本 概念 


PIL 中 所 涉及 的 基本 概念 有 通道 (bands)、 模 式 (mode) 尺寸 (size)、 坐 标 系统 (coordinate 
system)、 调 色 板 〈palette)、 信 息 (info) 和 滤波 器 (filters )。 

1. 通道 

每 张 图 片 都 是 由 一 个 或 者 多 个 数据 通道 构成 。PIL 允许 在 单 张 图 片 中 合成 相同 维度 和 
深度 的 多 个 通道 。 灰 度 图 像 ， 只 有 一 个 通道 。 而 RGB 图 像 ， 每 张 图 片 都 是 由 三 个 数据 通 
道 构成 ， 分 别 为 R、G 和 B 通道 。 

getbands() 方 法 可 以 获取 一 张 图 片 的 通道 数量 和 名 称 ， 使 用 方法 如 下 所 示 。 


from PIL import Image # 导 入 库 
im = Image.open(' D:\\python\\shutu.jpg ') # 读 取 文 件 内 容 
im bands = im.getbands () # 获 取 图 片 的 通道 数量 和 名 称 


len (im bands) 


print (im bands[0]) 朝 输 出 通道 ， 结 果 为 R 
print (im bands[1]) # 输 出 通道 ， 结 果 为 G 
print (im bands[2]) # 输 出 通道 ， 结 果 为 B 


其 定 


结果 如 下 所 示 。 


R 
G 
B 


2. 模式 

图 像 的 模式 表明 图 像 所 使 用 的 像素 格式 , 代表 性 的 取 值 为 “1”“L”“RGB” 和 “CMYK”。 
义 了 图 像 的 类 型 和 像素 的 位 宽 。 当 前 支持 模式 包括 : 

(1) 1: 1 位 像素 ， 为 黑白 图 像 ， 存 储 时 每 个 像素 存储 为 8bit (0 为 黑 ，255 为 白 )。 
(2) 工 : 8 位 像素 ， 为 灰色 图 像 。 

(3) P: 8 位 像素 ， 使 用 调 色 板 映射 到 其 他 模式 。 

(4) RGB: 3X8 位 像素 ， 为 真 彩色 。 

(5) RGBA: 4X8 位 像素 ， 有 透明 通道 的 真 彩色 。 

(6) CMYK: 4X8 位 像素 ， 颜 色 分 离 。 

(7) YCbCr: 3X8 位 像素 ， 彩 色 视 频 格 式 。 

(8) I: 32 位 整 型 像素 。 

(9) F: 32 位 浮 点 型 像素 。 

属性 mode 的 使 用 如 下 所 示 。 


from PIL import Image # 导 入 库 

im = Image.open(' D:\\python\\shutu.jpg ') # 读 取 文 件 内 容 
md = im.mode # 读 取 模 式 
print (md) 

结果 如 下 所 示 ， 返 回 图 像 模式 。 

RGB 

3. 尺寸 

size 是 指 图 像 的 尺寸 。 其 返回 值 是 宽度 和 高 度 的 二 元 组 ， 包 含水 平和 垂直 方向 上 的 像 
属性 size 的 使 用 如 下 所 示 。 

from PIL import Image # 导 入 库 

im = Image.open(' D:\\python\\shutu.jpg ') # 读 取 文 件 内 容 
im size=im.size ## 读 取 图 像 尺 十 


print (im size[0]) 
print (im size[1]) 


结果 如 下 所 示 ， 返 回 图 像 的 宽度 与 高 度 。 
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4. 坐标 系统 
PIL 使 用 笛 卡 儿 像素 坐标 系统 ， 坐 标 〈0，0) 位 于 左上 角 。 


注意 : 坐标 值 表示 像素 的 角 ; 位 于 坐标 (0, 0 ) 处 的 像素 的 中 心 实际 上 位 于 (0.5, 0.5 )。 


坐标 经 常用 于 二 元 组 (x，y)。 长 方形 则 表示 为 四 元 组 ， 前 面 是 左上 角 坐 标 。 例 如 ， 
一 个 覆盖 300X 400 像素 的 图 像 的 长 方形 表示 为 (0，0，300，400)。 


$5. 调 色 板 
调 色 板 模式 《了 P”) 使 用 一 个 颜色 调 色 板 为 每 个 像素 定义 具体 的 颜色 值 。 
6. 信息 


信息 是 存储 图 像 相关 数据 的 字典 。 使 用 该 字典 传递 从 文件 中 读 取 的 各 种 非 图 像 信 息 。 
加 载 和 保存 图 像 文 件 时 ， 文 件 格式 决定 了 多 少 信息 需要 被 处 理 。 

7. 滤波 器 

滤波 器 是 将 多 个 输入 像素 映射 为 一 个 输出 像素 的 几何 操作 。 

PIL 的 采样 滤波 器 包括 : 

(1) NEAREST: 最 近 滤 波 。 从 输入 图 像 中 选取 最 近 的 像素 作为 输出 像素 ， 且 忽略 所 
有 其 他 的 像素 。 

(2) BILINEAR: 双 线 性 滤波 。 在 输入 图 像 的 2X2 矩阵 上 进行 线性 插值 。 

(3) BICUBIC: 双 立 方 滤波 。 在 输入 图 像 的 4X4 矩阵 上 进行 立方 插值 。 

(4) ANTIALIAS: 平滑 滤波 。 只 用 于 改变 图 像 尺 寸 和 缩 略图 方法 ， 是 下 采样 滤波 器 。 
例如 ， 将 一 个 大 的 图 像 转换 为 小 的 图 像 。 


10.3 ”图像 处 理 类 库 PIL 的 常用 模块 


PIL 库 主 要 可 以 实现 两 个 方面 的 功能 需求 ， 包 括 图 像 归档 和 图 像 处 理 。 

(1) 图 像 归档 : 对 图 像 进行 批 处 理 、 生 成 图 像 预览 、 图 像 格式 转换 等 。 

(2) 图 像 处 理 ， 图 像 基本 处 理 、 像 素 处 理 、 颜 色 处 理 等 。 

PIL 库 共 包括 21 个 不 同 功能 与 图 像 相 关 的 类 , 这 些 类 可 以 被 看 作 是 子 库 或 PIL 库 中 的 
模块 。 分 别 是 Image、ImageChops、ImageColor、ImageDraw、ImageEnhance、ImageFile、 
ImageFilter、ImageFont、ImageGrab、ImageMath、ImageOps、ImagePalette、ImagePath、 
ImageQt、ImageSequence、ImageStat、ImageTk、ImageWin、PSDraw 模块 。 本 节 中 将 介绍 
几 个 常用 的 模块 。 

10.3.1 Image 模块 


Image 模块 是 PIL 中 最 重要 的 模块 ， 提 供 了 创建 、 打 开 、 显 示 和 保存 等 诸多 图 像 的 操 
作 功 能 ;还 有 合成 、 裁 剪 、 滤 波 等 处 理 图 像 的 功能 ， 以 及 获取 图 像 属性 ， 如 图 像 直方 图 、 


通道 数 等 功能 。 

PIL 中 Image 模块 提供 了 一 个 相同 名 称 的 Image 类 ， 可 以 使 用 Image 类 从 大 多 数 图 像 
格式 的 文件 中 读 取 数据 ， 然 后 写 入 最 常见 的 图 像 格 式 中 。 

读 取 一 幅 图 像 ， 可 以 使 用 : 


from PIL import Image # 导 入 库 
pil im=Image.open(' D:\\python\\shutu.jpg ') # 读 取 文 件 内 容 


上 述 代码 的 返回 值 pil_im 是 一 个 PIL 图 像 对 象 。 
也 可 以 直接 用 Image.new (mode,size,color=None) 创建 图 像 对 象 ，color 的 默认 值 是 
这 里 创建 一 个 像素 为 480X320， 背 景 为 蓝 色 的 RGB 空白 图 像 。 


newIm=Image.new ('RGB', (480,320), (0,255,0)) # 创 建 图 像 对 象 


图 像 的 颜色 转换 可 以 使 用 Image 类 的 convert() 方 法 实现 。 如 将 一 幅 彩 色 图 片 xinjpg 转 
换 成 灰 度 图 像 ， 需 要 加 convert(L)， 代 码 如 下 所 示 。 


pil im=Image.open('xin.jpg') .convert ('L') # 读 取 文 件 并 转换 成 灰 度 图 像 


10.3.2 ImageChops 模块 


ImageChops 模块 包含 一 些 算术 图 形 操作 ， 叫 作 channel operations (“chops”)。 这 些 操 
作 可 用 于 图 像 特 效 、 图 像 组 合 、 算 法 绘图 等 。 通 道 操 作 只 用 于 8 位 图 像 (如 “L” 横 式 和 
“RGB ”模式 )。 大 多 数 通道 操作 接收 一 个 或 两 个 图 像 参数 ， 并 返回 一 个 新 的 图 像 。 

ImageChops 模块 中 包含 多 个 函数 ， 下 面 举例 说 明 。 

1， duplicate0 的 使 用 方法 

格式 : duplicate(image) 一 image 

说 明 : 返回 给 定 图 像 的 拷贝 。 

函数 duplicate() 的 使 用 如 下 所 示 。 

from PIL import Image # 导 入 库 

im=Image.open('D:\\python\\zxray.jpg ') # 读 取 文 件 内 容 

from PIL import ImageChops 

im dup = ImageChops.duplicate (im) # 复 制图 像 ， 返 回 给 定 图 像 的 副本 

print (im dup.mode) # 输 出 模式 为 'RGB'" 

返回 两 幅 图 像 逐 个 像素 差 的 绝对 值 形成 的 图 像 

im diff = ImageChops.difference (im,im dup) 

im _ diff.show() 


由 于 图 像 im_ dup 是 由 im 复制 过 来 的 ， 所 以 像素 差 为 0， 图 像 im_diff 显示 为 全 黑 图 ， 
结果 如 图 10-2 所 示 。 
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(a) 原 图 (b) 形成 的 图 像 
图 10-2 函数 duplicate0 实 现 
2. constant () 的 使 用 方法 
格式 : constant(image,value) 一 image 
说 明 : 返回 一 个 被 给 定 的 像素 值 填充 ， 并 与 给 定 图 像 尺 寸 一 样 的 图 像 。 
函数 constant 0 的 使 用 如 下 所 示 。 


from PIL import Image,ImageChops # 导 入 库 
im = Image.open('D:\\python\\shutu.jpg') # 读 取 文 件 内 容 
im01=ImageChops .constant (im, 100) # 返 回 一 个 给 定 像素 值 填充 的 图 像 


im01.show() 


3. invert 0 的 使 用 方法 

格式 : invert(image) 一 image 

说 明 : 返回 最 大 值 255 减 去 当前 值 的 图 像 。 

函数 invert 0 的 使 用 如 下 所 示 。 

from PIL import Image, ImageCchops 

im = Image.open('D:\\python\\shutu.jpg') 

im01= ImageChops.invert (im) # 返 回 最 大 值 255 减 去 当前 值 的 图 像 


im01.show() 


结果 如 图 10-3 所 示 。 


(a) 原 图 (b) 转换 后 的 图 像 
图 10-3 函数 invert 0 的 实现 


4. lighter 0 的 使 用 方法 

格式 : lighter(imagel, image2) 一 image 

说 明 : 逐个 像素 比较 ， 选 择 较 大 值 作为 新 图 像 的 像素 值 。 
函数 lighter 0 的 使 用 如 下 所 示 。 


from PIL import Image, ImageCchops # 导 入 库 

im01 = Image.open('D:\\python\\shutu.jpg') # 读 取 文件 1 内 容 
im02 = Image.open('D:\\python\\shutu2.jpg') # 读 取 文 件 2 内 容 
# 逐 像素 比较 ， 选 择 较 大 值 作为 新 图 像 im 的 像素 值 

im=ImageChops.lighter (im01, im02) 

im.show () 


两 幅 图 像 逐 像素 比较 ， 选 择 较 大 值 作为 新 图 像 的 像素 值 ， 像 素 值 越 大 ， 图 像 越 亮 ， 结 


果 如 图 10-4 所 示 。 
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(a) im01 (b) im02 (ce) im 


图 10-4 函数 lighter 0 的 实现 


10.3.3 ”ImageDraw 模块 


ImageDraw 模块 为 Image 提供 了 基本 的 图 形 处 理 能 力 ， 如 图 形 的 2D 绘制 ， 可 以 绘制 


直线 、 弧 线 、 和 矩形 、 多 边 形 、 椭 圆 、 扇 形 等 。 可 以 使 用 这 个 模块 创建 新 的 图 像 ， 注 释 或 润 
饰 已 存在 图 像 ， 为 web 应 用 实时 产生 各 种 图 形 。 


«I 


以 下 是 ImageDraw 模块 的 一 些 基 础 知识 : 

(1) Coordinates: 绘图 接口 使 用 和 PIL 一 样 的 坐标 系统 ， 即 (0，0) 为 左上 和 角 。 

(2) Colours: 为 了 指定 颜色 ,用户 可 以 使 用 数字 或 者 元 组 。 对 于 模式 为 “1”“L” 和 
”的 图 像 ， 使 用 整数 。 对 于 “RGB” 图 像 ， 使 用 整数 组 成 的 3 元 组 。 对于“F” 图 像 ， 使 
整数 或 者 浮 点 数 。 


符 串 格式 包括 : 


(3) Colours Names: 用 户 绘制 “RGB ”图 像 时 ， 可 以 使 用 字符 串 常 


@ RGB 函数 : 为 “rgb(red, green, blue)”， 变 量 rrd、green、blue 的 取 值 为 [0，255] 上 


图 侯 碟 作 与 修理 
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的 整数 。 另 外 ， 颜 色 值 也 可 以 为 [0%，100%6] 之 间 的 三 个 百分比 。 例 如 ,“rgb(255, 0, 0)” 和 
“rgb(100%, 0%, 0%)” 都 表示 纯 红 色 。 


@ 十 六 进 制 颜色 说 明 符 : 为 “ 雪 gb” 或 者 “##rggbb”。 例 如 ,，“#ff0000” 表 示 纯 红色 。 
@ HSL (Hue-Saturation-Lightness) 函数 : 为 “hsl(hue,saturation%, lightness%)”， 变 量 


hue 为 [0，360] 之 间 的 一 个 角度 表示 颜色 (red=0， green=120， blue=240)， 变 量 saturation 
为 [0%，100%6] 之 间 的 一 个 值 (gray-0%，full color=100%)， 变 量 lightness 为 [0%，100%] 


业 
红 


4 一 个 值 (black=0%， normal=50%， white=100%)。 例 如 ,，“hsl(0,100%，50%)” 为 纯 


色 


@ 通用 HTML 颜色 名 称 : ImageDraw 模块 提供 了 140 个 标准 颜色 名 称 。 颜 色 名 称 对 


大 小 写 不 敏感 。 例 如 ,，“red” 和 “Red” 都 表示 纯 红色 。 


(4) Fonts: PIL 可 以 使 用 Bitmap 字体 或 者 OpenType/TrueType 字体 。Bitmap 字体 被 存 


储 在 PIL 格式 中 ， 一 般 包 括 两 个 文件 ，.pil (包含 字体 的 矩阵) 和 .pbm (包含 栅 格 数 据 )。 


在 


ImageFont 模块 中 , 使 用 函数 load0 加 载 一 个 Bitmap 字体 , 使 用 函数 Truetype() 加 载 一 个 


OpenType/TrueType 字体 。 


注意 : 这 个 函数 依赖 于 第 三 方 库 ， 而 且 并 不 是 在 所 有 的 PIL 版 本 中 都 有 效 。 


ImageDraw 模块 中 包含 多 个 方法 ， 下 面 举例 说 明 。 

1. Draw0 的 使 用 方法 

格式 : Draw(image) 一 Draw instance 

说 明 : 创建 一 个 可 以 在 给 定 图 像 上 绘图 的 对 象 〈 图 像 内 容 将 会 被 修改 )。 
Draw0 的 使 用 如 下 所 示 。 


from PIL import Image, ImageDraw # 导 入 库 
im=Image.open('D:\\python\\xray.jpg ') # 读 取 文 件 内 容 

draw = ImageDraw.Draw(im) # 创 建 一 个 绘图 对 象 

# 在 新 图 像 上 绘制 线 

draw.line((0,0)+im.size, fill = 255) #im.size 是 图 像 大 小 


qdraw.line((0，im.size[1]，im.size[0]，0)，fil1=255)#fil1 = 255 为 给 定 颜色 
im. show () 


结果 如 图 10-5 所 示 。 


图 10-5 ”Draw0 绘 制 对 角 线 


2. arc0 的 使 用 方法 

格式 : draw.arc([xl, yl, x2, y2], start end, options) 

说 明 : 在 左上 角 坐 标 (x1，y1)， 右 下 角 坐标 (x2，Y2) 的 区 域内 ， 在 开始 〈start) 和 
结束 (end) 角度 之 间 绘 制 一 条 弧 〈 圆 的 一 部 分 )。 变 量 options 中 1 设置 弧 的 颜色 ， 弧 线 
都 是 按照 顺 时 针 方 向 绘制 的 。 

方法 arc0 的 使 用 如 下 所 示 。 


from PIL import Image, ImageDraw # 导 入 库 
im = Image.new('RGB', (480,320), (128,128,128)) 坦 创 建 一 幅 新 图 像 
draw = ImageDraw.Draw (im) # 创 建 一 个 绘图 对 象 


# 在 给 定 的 区 域内 ， 在 开始 和 结束 角度 之 间 绘 制 一 条 270 度 的 绿色 弧 线 
draw.arc((100,100,200,200),0,—-90,£ill=(0,255,0)) 
jim.show() 


3. chord0 的 使 用 方法 

格式 : draw.chord(xy.start, end, options) 

说 明 : 与 方法 arc() 一 样 ， 但 是 使 用 直线 连接 弧 起 始点 。 变 量 options 的 outline 给 定 弦 
轮廓 的 颜色 ，fill 给 定 弦 内 部 的 颜色 。 

方法 chord0 的 使 用 如 下 所 示 。 


from PIL import Image, ImageDraw # 导 入 库 
im = Image.new('RGB'，(320,320)，(200,233,233) ) # 创 建 一 幅 新 图 像 


draw = ImageDraw.Draw (im) 
draw.chord( (10,100,300,300) ,0,90,outline = (0,0,255)) # 夯 一 条 弦 
draw.chord((10,100,300,300),90,180，fill = (54,54,54) ) # 画 弦 并 将 弦 内 填充 颜色 


im.show() 


结果 如 图 10-6 所 示 。 


ed 


图 10-6 方法 chord 0 绘制 结果 


4. ellipse 0 的 使 用 方法 

格式 : draw.ellipse(xy.options) 

说 明 : 在 给 定 的 区 域 绘制 一 个 椭圆 形 。 变 量 options 的 outline 给 定 椭 圆 形 轮廓 的 颜色 ; 
fil 给 定 椭 圆 形 内 部 的 颜色 。 
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方法 ellipse 0 的 使 用 如 下 所 示 。 
draw.ellipse((0,0，100,200)，fill = (255，0，0)) # 绘 制 红色 椭圆 


5S. line 0 的 使 用 方法 

格式 : draw.line(xy,options) 

说 明 : 在 变量 xy 列表 所 表示 的 坐标 之 间 画 线 。 坐 标 列表 可 以 是 任何 包含 2 元 组 [(x,y),…*] 
或 者 数字 [x,y,…] 的 序列 对 象 它 至 少 包括 两 个 坐标 .变量 options 的 1 给 定 线 的 颜色 ,width 
给 定 线 的 宽度 。 

方法 line 0 的 使 用 如 下 所 示 。 


draw.line([(100,0), (100,300), (200,500)], fill = (0,255,0), width = 5) 


6. polygon 0 的 使 用 方法 

格式 : draw.polygon(xy,options) 

说 明 : 绘制 一 个 多 边 形 。 多 边 形 轮廓 由 给 定 坐标 之 间 的 直线 组 成 ， 在 最 后 一 个 坐标 和 
第 一 个 坐标 间 增 加 了 一 条 直线 ， 形 成 多 边 形 。 坐 标 列表 是 包含 2 元 组 [(x.y),…] 或 者 数字 
[x,y…] 的 任意 序列 对 象 , 最 少 包括 3 个 坐标 值 。 变量 options 的 fl 给 定 多边 形 内 部 的 颜色 。 

方法 polygon (的 使 用 如 下 所 示 。 


draw.polygon ([400, 300, 100, 500, 400, 500], fill=(0, 0, 255) 


10.3.4 ImageEnhance 模块 


ImageEnhance 模块 包括 一 些 用 于 图 像 增 强 的 类 ,分 别 为 Color 类 (色彩 增强 )、Brightness 
类 (亮度 增强 )、Sharpness 类 (图 像 尖锐 化 ) 和 Contrast 类 (对比度 增强 )。 

所 有 的 增强 类 都 实现 了 一 个 通用 的 接口 ， 包 括 一 个 方法 : 

格式 : enhancer.enhance(factor) 一 image 

说 明 : 该 方法 返回 一 个 增强 过 的 图 像 。 变 量 factor 是 一 个 浮 点 数 ， 控 制图 像 的 增强 程 
度 。 若 变量 factor 为 1.0， 则 不 对 原 图 像 做 任何 改变 ， 直 接 返 回 原 图 像 的 一 个 拷贝 。 

ImageEnhance 模块 的 使 用 如 下 : 

1. 色彩 增强 

色彩 增强 用 于 调整 图 像 的 颜色 均衡 。 

格式 : ImageEnhance.Color(image) 一 Color enhancer instance 

说 明 : 创建 一 个 增强 对 象 ， 并 调整 图 像 的 颜色 。 增 强 因子 为 0.0， 产 生 的 是 黑白 图 像 ; 


1.0 为 原始 图 像 。 
Color0 的 使 用 如 下 所 示 : 
from PIL import Image, ImageEnhance # 导 入 库 
im = Image.open('D:\\python\\xye.jpg') 砷 读 取 文 件 内 容 
im 1 = ImageEnhance.Color (im) .enhance (2.0) # 增 强 因 子 为 2.0 


im 1.show() 


2. 亮度 增强 

亮度 增强 类 用 于 调整 图 像 的 亮度 。 

格式 : ImageEnhance.Brightness(image) 一 Brightnessenhancer instance 

说 明 : 创建 一 个 调整 图 像 亮 度 的 增强 对 象 。 增 强 因 子 为 0.0， 将 产生 黑色 图 像 ， 为 1.0 
将 保持 原始 图 像 。 

Brightness () 的 使 用 如 下 所 示 。 


from PIL import Image, ImageEnhance # 导 入 库 
im = Image.open('D:\\python\\shutu3.jpg') 砷 读 取 文 件 内 容 
enhancer=ImageEnhance.Brightness (im) 井 将 im 传 给 enhancer 类 


# 调 用 enhance () 方法 ， 传 入 的 参数 指定 将 亮度 增强 2 倍 
im0=enhancer.enhance (2.0) 
jim0.show() 


enhance() 的 参数 factor 决定 着 图 像 的 亮度 情况 , 结果 是 图 像 im0 的 亮度 为 图 像 im 的 亮 
度 增 强 2.0 倍 ， 结 果 如 图 10-7 所 示 。 
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(a) 原 图 (b) 亮度 增强 后 的 图 像 
图 10-7 ImageEnhance 模块 Brightness 方法 实现 


3. 图 像 尖 锐 化 

锐 度 增强 类 用 于 调整 图 像 的 锐 度 。 

格式 : ImageEnhance.Sharpness(image) 一 Sharpness enhancer instance 

说 明 : 创建 一 个 调整 图 像 锐 度 的 增强 对 象 。 增 强 因 子 为 0.0， 将 产生 模糊 图 像 ， 为 1.0 
将 保持 原始 图 像 ， 为 2.0 将 产生 锐 化 过 的 图 像 。 

Sharpness 0 的 使 用 如 下 所 示 。 


from PIL import Image, ImageEnhance # 导 入 库 

im = Image.open('D:\\python\\xray.jpg') # 读 取 文 件 内 容 
enhancer=ImageEnhance.Sharpness (im) # 将 im 传 给 enhancer 类 

im0 = enhancer.enhance (3.0) 井 尖 锐 化 处 理 第 
im0.show() 10 
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结果 如 图 10-8 所 示 。 


(a) 原 图 Cb) 尖锐 化 后 的 图 像 
图 10-8 ”ImageEnhance 模块 Sharpness 方法 实现 
4. 对 比 度 增 强 
对 比 度 增强 类 用 于 调整 图 像 的 对 比 度 。 
格式 : ImageEnhance.Contrast(image) 一 Contrast enhancer instance 
说 明 : 创建 一 个 调整 图 像 对 比 度 的 增强 对 象 。 增 强 因子 为 0.0， 将 产生 纯 灰 色 图 像 ; 
增强 因子 为 1.0， 将 保持 原始 图 像 。 


Im 1= ImageEnhance.Contrast (im) .enhance (0.1) 


Contrast () 的 使 用 如 下 : 


from PIL import Image, ImageEnhance # 导 入 库 

im = Image.open('D:\\python\\xye.jpg') # 读 取 文 件 内 容 
im 1 = ImageEnhance.Color (im) .enhance (2.0) # 色 彩 增 强 

im 1 = ImageEnhance.Brightness (im) .enhance (2.0) # 亮 度 增强 

im 1 = ImageEnhance.Sharpness (im) .enhance (3.0) ## 锐 度 增强 

im 1 = ImageEnhance.Contrast (im) .enhance (2.0) # 对 比 度 增强 
im 1.show() 


综合 处 理 一 幅 图 像 ， 对 图 像 调整 亮度 、 对 比 度 、 色 度 并 增强 图 像 的 锐 度 ， 代 码 如 上 所 示 。 
结果 如 图 10-9 所 示 。 


(a) 原 图 (b) 处 理 后 的 图 像 
图 10-9 ImageEnhance 模块 综合 实现 


10.3.S ImageFilter 模块 


ImageFilter 模块 包括 各 种 滤波 器 的 预定 义 集合 ， 与 Image 类 的 filter0) 方 法 一 起 使 用 
该 模块 包含 一 些 图像 增 强 的 滤波 器 : BLUR、CONTOUR、DETAIL、EDGE ENHANCE、 
EDGE ENHANCE MORE、 EMBOSS、 FIND EDGES、 SMOOTH、 SMOOTH MORE、 
SHARPEN。 下 面 以 BLUR、CONTOUR 和 EMBOSS 为 例 。 

1. BLUR 

ImageFilterBLUR 为 模糊 滤波 ， 处理 之 后 的 图 像 会 整体 变 得 模糊 ,使 用 方法 如 下 所 示 ， 
结果 如 图 10-10 (b) 所 示 。 


o 


from PIL import Image, ImageFilter # 导 入 库 
im=Image.open('D:\\python\\shutu.jpg') # 读 取 文件 内 容 
imout = im.filter (ImageFilter .BLUR) # 模 糊 滤 波 


# 图 像 的 尺寸 大 小 〈150,120)， 是 一 个 二 元 组 ， 即 水 平和 科 直 方向 上 的 像素 
imout.size 
imout .show() 


2. CONTOUR 
ImageFilterCONTOUR 为 轮廓 滤波 ， 会 将 图 像 中 的 轮廓 信息 全 部 提取 出 来 ， 使 用 方法 
如 下 所 示 ， 结 果 如 图 10-10 (c) 所 示 。 


from PIL import Image， ImageFilter # 导 入 库 
im=Image.open('D:\\python\\shutu.jpg') # 读 取 文件 内 容 
im0 =im.filter (ImageFilter .CONTOUR) # 轮 廓 滤波 


im0.show() 


3. EMBOSS 
ImageFilter. EMBOSS 为 浮雕 滤波 ， 会 使 图 像 呈 现 出 浮雕 效果 ， 使 用 方法 如 下 所 示 ， 结 
果 如 图 10-10 (d) 所 示 。 


from PIL import Image, ImageFilter # 导 入 库 
im=Image.open('D:\\python\\shutu.jpg') # 读 取 文件 内 容 
im0 =im.filter (ImageFilter .EMBOSS) # 浮 雕 滤波 


im0.show() 


3 


虚拟 现实 与 . 
一 增强 现实 技术 导论 .增强 现实 技术 导论 


站 
禾 
上 
上 
El 
再 
实 
中 
术 
导 
论 


(a) 原 图 (b) BLUR 后 的 图 像 
图 10-10 ImageFilter 模块 实现 
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(c) CONTOUR 后 的 图 像 (d) EMBOSS 后 的 图 像 
图 10-10 ( 续 ) 


10.3.6 ImageFont 模块 


ImageFont 模块 定义 了 一 个 同名 的 类 , 即 ImageFont 类 。 这 个 类 的 实例 中 存储 着 Bitmap 
字体 ， 需 要 与 ImageDraw 类 的 text0 方 法 一 起 使 用 。 

格式 : ImageFont.truetype(file.size) 一 Font instance 

说 明 : 加 载 一 个 truetype 字体 文件 ， 并 且 创 建 一 个 字体 对 象 。 这 个 函数 从 指定 的 文件 
中 加 载 了 一 个 字体 对 象 ， 并 且 为 指定 大 小 的 字体 创建 了 字体 对 象 。 

ImageFont 模块 的 使 用 如 下 所 示 。 

【 例 10-1】 使 用 的 是 trvetype0 函 数 ，truetype 采用 几何 学 中 二 次 也 样 条 曲线 及 直线 来 
描述 字体 的 外 形 轮廓 ， 其 特点 是 既 可 以 作 打印 字体 ， 又 可 以 用 作 屏 幕 显 示 ， 由 于 它 是 用 指 
令 对 字形 进行 描述 ， 因 此 它 与 分 辨 率 无 关 ， 输 出 时 总 是 按照 打印 机 的 分 辩 率 输出 。 无 论 放 
大 或 缩小 ， 字 符 总 是 光滑 的 ， 不 会 有 锯齿 出 现 。 

from PIL import Image, ImageDraw, ImageFont # 导 入 库 

im=Image.open('D:\\python\\shutu5 .jpg') # 读 取 文 件 内 容 

draw = ImageDraw.Draw(im) 

# 从 指定 的 文件 加 载 了 一 个 字体 对 象 ， 并 且 为 指定 大 小 的 字体 创建 了 字体 对 象 

font = ImageFont.truetype('C:\\WINDOWS\\Fonts\\SIMYOU.TTF',20) 

坦 在 (100,100) 坐标 点 开始 绘制 字体 对 象 ，u 在 填 加 汉字 时 使 用 

draw.text ( (100,100),u' 中 国医 科大 学 计算 机 教研 室 '，, font=font, fil1='white') 

ft = ImageFont.truetype('c:\\Windows\\Fonts\\Verdana.ttf', 30) 

draw.text ((30,400), 'www.cmu.edu.cn', font=ft, fill="'green') 

im.show() 


在 Windows 系统 下 ， 字 体 文件 位 于 C:\Windows\Fonts 文件 夹 下 。 本 实例 中 用 到 的 


Verdana.ttf 字体 文件 ， 可 以 根据 实际 需要 ， 从 Fonts 文件 夹 下 选择 所 需 字体 文件 。 
结果 如 图 10-11 所 示 。 
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图 10-11 ImageFont 模块 实现 


10.4 ”PIL 对 图 像 的 基本 操作 


图 像 处 理 类 库 PIL 提供 了 通用 的 图 像 处 理 功 能 和 基本 图 像 操作 ， 本 节 将 重点 介绍 图 像 
格式 的 转换 、 创 建 缩 略 图 、 图 像 的 复制 和 粘贴 以 及 几何 变换 。 


10.4.1 图 像 格 式 的 转换 


图 像 处 理 类 库 PIL 可 实现 不 同 图 像 格 式 的 转换 。 使 用 Image 模块 的 open() 函 数 打 开 的 
彩色 图 像 ， 返 回 的 图 像 对 象 的 模式 都 是 灰 度 图 像 打 开 后 ， 其 模式 为 “L”。 

在 打开 图 像 时 ，PIL 会 将 图 像 解 码 为 三 通道 的 “RGB” 模 式 。 可 以 基于 这 个 图 像 ， 对 
其 进行 处 理 。 然 后 ， 使 用 函数 save0， 将 处 理 结果 保存 成 PNG、BMP 和 JPG 中 任何 格式 。 
其 他 格式 的 彩色 图 像 也 可 以 通过 这 种 方式 完成 转换 。 对 于 不 同 格式 的 灰 度 图 像 ， 也 可 通过 
类 似 途径 完成 ， 只 是 PIL 解码 后 是 模式 为 “L” 的 图 像 。 

convert() 函 数 : 

格式 : convert(mode) 一 image 

说 明 : 使 用 不 同 的 参数 ,将 当前 的 图 像 转换 为 新 的 模式 ， 并 产生 新 的 图 像 作为 返回 值 。 

将 图 像 的 “RGB ”模式 转换 为 “1” 模 式 。 模 式 “1” 为 二 值 图 像 ， 非 黑 即 白 。 但 是 它 
每 个 像素 用 8 个 bit 表示 ，0 表示 黑 ，255 表示 

例如 将 一 幅 “RGB” 模式 的 彩色 图 像 转换 为 模式 “1” 的 二 值 图 像 ， 具 体操 作 代码 如 
下 所 示 。 


from PIL import Image 导入 库 

im = Image.open('D:\\python\\xin.jpg') # 读 取 文 件 内 容 

im 1=im.convert ('1') # 图 像 转 为 “1” 模 式 

im 1.show() 第 

结果 如 图 10-12 所 示 。 
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图 10-12 转换 后 的 模式 “1” 图 像 


【 例 10-2】 从 文件 名 列表 filelist) 中 读 取 所 有 的 图 像 文 件 ， 并 转换 成 JPEG 格式 。 


from PIL import Image 
import os 
pathl='D:\\python\\image\\"' 
filelist=os.l1istdir(pathl) 
for infile in filelist: 
outfile=os.path.splitext(infile) [0]+' .jpg' 
print (infile,outfile) 
if infile !=outfile: 
try: 
im=Image.open (pathl+infile) 
im=im.convert ('RGB') 
im=im.save (pathl+outfile) 
except IOError: 
print('cannot convert',infile) 


坦 导 入 库 

# 导 入 os 模块 

# 设 置 pathl 的 路 径 

# 获 取 目 录 下 所 有 文件 

#Eor 循环 体 

# 生 成 的 新 jpg 文件 名 

# 输 出 原文 件 与 输出 文件 格式 
# 判 断 格式 是 否 相 同 


# 格 式 不 同时 打开 原文 件 
# 转 换 格式 
# 保 存 转换 后 的 图 像 文 件 


PIL 的 openQ 函数 用 于 创建 PIL 图 像 对 象 ，save0 方 法 用 于 保存 图 像 到 具有 指定 文件 
名 的 文件 。 原 文件 是 .png 格式 ， 转 换 为 jpg 格式， 并 以 同名 保存 。 


10.4.2 创建 缩 略图 


缩 略 图 是 网 络 开发 或 图 像 软 件 预览 常用 的 一 种 基本 技术 ， 使 用 PIL 可 以 很 方便 地 创建 


缩 略 图 。 


thumbnail(0 方 法 接受 一 个 元 组 参数 ， 分 别 对 应 着 缩 略 图 的 宽 和 高 ; 第 二 个 参数 制定 了 
滤 镜 Image.ANTIALIAS。 滤 镜 有 NEAREST、BILINER、BICUBIC、ANTIALIAS 4 种 ， 
中 使 用 ANTIALIAS 修改 尺寸 后 的 图 像 品质 最 高 〈 损 失 最 小 )。 


也 


略图 。 


[将 图 像 转换 成 符合 元 组 参数 指定 大 小 的 缩 略图 。 例如， 创建 最 长 边 为 100 像素 的 缩 


im.thumbnail((100,100) ) 


【 例 10-3】 生成 缩 略 图 并 保存 成 文件 temp1.jpg。 


from PIL import Image # 导 入 库 
im=Image.open('D:\\python\\temp.png') 音 读 取 文 件 内 容 

im=im.convert ('RGB') # 转 换 为 “RGB” 模 式 
im.show() # 显 示 转 换 后 的 图 像 

print (im.format, im.size, im.mode) # 输 出 图 像 信 息 

im.thumbnail ( (100,100)) # 创 建 最 长 边 为 100 像素 的 缩 略 图 
im.save('D:\\python\\templ .jpg') # 新 图 像 命名 为 templ 并 保存 


在 缩 略 时 ， 会 保持 原 图 的 宽 高 比例 。 如 果 输 入 的 参数 宽 高 和 原 图 像 宽 高 比 不 同 ， 则 会 
依据 最 长 对 应 边 进行 原 比例 缩放 。 


10.4.3 ”图 像 的 复制 和 牛 贴 


PIL 可 以 操作 图 像 部 分 选取 。 

crop0 方 法 可 以 从 一 幅 图 像 中 裁剪 指定 区 域 。 接 收 一 个 四 元 素 的 元 组 作为 参数 , 各 元 素 
为 (起 始点 的 横 坐 标 ， 起 始点 的 纵 坐标 ， 宽 度 ， 高 度 )， 坐 标 系 统 的 原点 (0, 0) 是 左上 角 。 
paste() 方 法 可 以 将 裁剪 区 域 粘贴 到 原 图 中 ， 参 数 为 (需要 修改 的 图 片 ， 粘 贴 的 起 始点 的 横 
坐标 ， 粘 贴 的 起 始点 的 纵 坐 标 )。 

【 例 10-4】 裁剪 一 块 选区 ， 并 粘贴 到 原 图 中 。 


from PIL import Image # 导 入 库 
im=Image.open('D:\\python\\shutu.jpg') # 读 取 文 件 内 容 
box=(100,100, 300, 300) # 设 定 裁剪 的 区 域 
region=im.crop (box) # 裁 前 指定 区 域 
region=region.transpose (Image.ROTRTE 180) “ 间 逆 时 针 旋 转 180° 
im.paste (region, box) # 将 裁 前 区 域 粘贴 到 原 图 中 
im.show () 


结果 如 图 10-13 所 示 。 
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图 10-13 ”裁剪 处 理 后 的 结果 图 


图 像 岂 作 与 你 理 


二 级 Python 和 用 丁 背 直 


10.4.4 ”几何 变换 


对 图 像 进行 几何 变换 包括 resize0 和 rotate(。 
resize() 方 法 的 参数 是 一 个 元 组 ， 用 来 指定 新 图 像 的 大 小 。 


out = pil im.rotate(45) 
Iotate() 方 法 可 以 使 用 逆 时 针 方 式 表示 旋转 角度 。 
out = pil im.resize((128,128)) 


在 PIL 中 ， 对 于 一 些 常 见 的 旋转 作 了 专门 的 定义 如 下 所 示 。 


out = im.transpose (Image.FLIP LEFT RIGHT) # 左 右 对 换 
out = im.transpose (Image.FLIP TOP BOTTOM) # 上 下 对 换 
out = im.transpose (Image.ROTATE 90) # 旋 转 90° 
out = im.transpose (Image.ROTATE 180) # 旋 转 180° 
out = im.transpose (Image.ROTATE 270) # 旋 转 270° 
【 例 10-5】 图 像 的 几何 变换 。 

from PIL import Image # 导 入 库 
im=Image.open('D:\\python\\shutu.jpg') # 读 取 文件 内 容 
im.transpose (Image.FLIP LEFT RIGHT) .show() # 左 右 对 换 
im.transpose (Image .FLIP TOP BOTTOM) .show() # 上 下 对 换 
im.transpose (Image .ROTATE 270) .show () # 旋 转 270° 


结果 如 图 10-14 所 示 。 
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(b) 左右 对 换 (c) 上 下 对 换 (d) 旋转 270 度 
图 10-14 几何 变换 图 


10.$S 了 PIL 对 图 像 的 综合 实例 


本 节 将 举例 综合 演示 PIL 对 图 像 的 处 理 操作 。 
1. 合并 图 片 
【 例 10-6】 合并 两 幅 图 像 ， 展 示 并 保存 。 其 中 新 图 像 的 每 一 个 像素 点 是 由 两 幅 图 像 的 


各 百 分 之 五 十 构成 。 


from PIL import Image 


iml=Image.open('D:\\python\\shutu6.jpg') 
im2 = Image.open('D:\\python\\xy.jpg') 


def merge (iml, im2) : 


width = min(iml.size[0],im2.size[0]) 
height = min(iml.size[1],im2.size[1]) 
im new = Image.new('RGB', (width, height)) 
# 循 环 体 计算 新 图 像 的 每 一 个 像素 点 是 由 两 幅 图 像 的 各 百 分 之 五 十 构成 
for x in range (width) : 
for y in range (height) : 
rl1,g1,bl=im]l .getpixel ( (x,y)) 
r2,g2,b2=im2 .getpixel ( (x,y)) 


T= 


g=g1+g2 
b=b1l+b2 


im new.putpixel ( (x,y), (r,g,b)) 


return im new 
merge (iml, im2) .show () 


merge (iml, im2) .save ('D:\\python\\HECHENG.jpg') 


结果 如 图 10-15 所 示 。 
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〈c) 合成 后 的 图 片 
图 10-15 图 像 合成 的 结果 图 


# 导 入 库 

# 读 取 文 件 1 内 容 
# 读 取 文 件 2 内 容 
# 定 义 新 图 像 函 数 
# 获 取 新 图 像 宽度 
# 获 取 新 图 像 高 度 


# 新 图 像 为 RGB 模式 


# 取 该 坐标 点 的 像素 值 
# 取 该 坐标 点 的 像素 值 


# 将 计算 后 的 RGB 值 赋 给 新 图 像 


# 以 HECHENG 命名 并 保存 
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2. 生成 随机 验证 码 

在 日 常生 活 中 ， 我 们 经 常会 遇 到 随机 验证 码 ， 一 般 是 为 了 防止 特定 注册 用 户 用 特定 程 
序 暴力 破解 方式 进行 不 断 的 登录 尝试 。 

【 例 10-7】 如 何 生成 随机 验证 码 。 


from PIL import Image, ImageFont, ImageFilter, ImageDraw 
import random 
# 产 生 随 机 字母 与 数字 , chr () 将 Ascii 码 转 换 成 对 应 的 字符 
def rndchn(): 
return chr (random.randint (65, 90)) 
# 产 生 随 机 颜色 
def rndColor(): 
return (random.randint (64,255),random.randint (64,255),random.randint 
(64,255)) 
# 产 生 随 机 颜色 
def rndColor2(): 
return (random.randint (32,127),random.randint (32,127),random.randint 
(C32 
# 验 证 码 这 个 框 的 大 小 
width = 240 
height = 60 
#Image .new (mode, size, color) 表 示 新 建 一 个 图 形 ， 第 一 个 参数 表示 图 形 的 模式 ， 第 二 个 表示 
像素 大 小 ， 第 三 个 表示 颜色 
im = Image.new ("RGB", (width,height), (255,255,255)) 
# 创 建 Dont 字体 对 象 ImageFont .truetype (file, size) 表示 的 是 字体 和 字体 的 大 小 
font = ImageFont.truetype("c:\\Windows\\Fonts\\Verdana.ttf",36) 
# 在 产生 的 im 图 形 上 添加 文字 
draw = ImageDraw.Draw(im) 
# 遍 历 白色 的 图 形 上 的 所 有 坐标 点 ， 然 后 画 点 ， 颜 色 随机 
for x in range (width): 
for y in range (height): 
#draw.point ( (x,y) ,fil1=. . ) 在 图 形 上 画 点 , 坐标，fi11 表示 颜色 
draw.point ( (x,y),fill=rndColor()) 
# 在 图 形 上 画 上 文字 ， 随 机 的 文字 draw. text ( (x, y) ,text, font, fil11=) 第 一 个 参数 表示 坐 
标 ， 第 二 个 表示 要 填写 的 文字 ， 第 三 个 表示 字体 以 及 字体 的 大 小 ，fi11=. -表示 字体 的 颜色 
for t in range(4): 
draw.text((60 * 七 + 10,10),rndchn(),font=font,fill=rndColor2()) 


im2 = im.filter (ImageFilter.BLUR) 
im2.save ("yan.jpg") 


结果 如 图 10-16 所 示 。 


图 10-16 ”随机 产生 的 验证 码 图 
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本 章 主 要 介绍 了 有 关 Python 图 像 操 作 与 处 理 的 基础 知识 、 图 像 处 理 类 库 Pillow 的 安装 、 
PIL 的 基本 概念 、PIL 的 常用 模块 和 PIL 对 图 像 的 基本 操作 。 通 过 对 本 章 的 学 习 , 读者 能 够 
对 图 像 处 理 类 库 PIL 有 一 定 的 了 解 和 掌握 ， 为 后 续 的 学 习 打 下 良好 的 基础 。 
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第 11 章 科学 计算 与 数据 可 视 化 应 用 


导 学 

本 章 主 要 讲解 有 关 Python 科学 计算 与 数据 可 视 化 应 用 的 基础 知识 , 通过 大 量 例题 介绍 
科学 计算 与 数据 分 析 所 需 的 NumPy 库 和 数据 可 视 化 所 需 的 Matplotlib 库 的 使 用 方法 。 

了 解 : NumPy 数组 的 概念 ; NumPy 数组 的 形状 操作 ; NumPy 文件 存 取 数 组 操作 。 

掌握 : 如 何 创 建 NumPy 数组 ; NumPy 数组 的 算术 运算 ; 图 像 数组 的 表示 方法 ; 利用 
图 像 数组 进行 灰 度 变换 ; 直方 图 均衡 化 ; 使 用 Matplotlib pyplot 模块 绘图 ; 使 用 
Matplotlib .pylab 模块 绘制 直方 图 、 条 形 图 、 散 点 图 、 饼 状 图 等 。 

随 着 NumPy、Matplotlib 等 众多 程序 库 的 开发 ，Python 越 来 越 适用 于 科学 计算 。 与 科 
学 计算 领域 比较 流行 的 Matlab 相 比 ，Python 是 一 门 专业 的 通用 程序 设计 语言 ， 比 Matlab 
所 采用 的 脚本 语言 的 应 用 范围 更 广泛 ， 有 更 多 程序 库 的 支持 。 


11.1 NumPy 库 的 使 用 


NumpPy 是 Python 的 科学 计算 库 。NumpPy 支持 高 级 、 大 量 的 维度 数组 与 矩阵 运算 ， 可 
用 来 存储 和 处 理 大 型 矩阵 ， 比 Python 自身 的 嵌 套 列表 结构 要 高 效 得 多 。 
NumPy 库 在 Windows 平台 的 安装 方法 是 在 命令 行使 用 pip 命令 安装 : 


pip install numPy 


11.1.1 NumPy 数组 的 使 用 


1. NumPy 数组 的 概念 

NumpPy 的 主要 对 象 是 同 种 元 素 构 成 的 多 维 数组 。NumPy 数组 的 维 数 称 为 秩 (rank)， 
一 维 数组 的 秩 为 1， 二 维 数 组 的 秩 为 2， 以 此 类 推 。 在 NumPy 中 ， 每 一 个 线性 的 数组 称 为 
一 个 轴 (axes)， 秩 其 实 是 描述 轴 的 数量 。 

例如 , 在 3D 空间 一 个 点 坐标 [1, 2, 3] 数组 的 秩 为 1 (只 有 一 个 维度 ); [[ 1., 0., 0.], [ 0.， 
1., 2.]] 数 组 的 秩 为 2 (有 两 个 维度 )。 


注意 : NumPy 数组 的 下 标 从 0 开始 。 同 一 个 NumPy 数组 中 所 有 元 素 的 类 型 必须 
相同 。 


NumPy 的 数组 对 象 称 为 ndarray，ndarray 对 象 常用 属性 如 表 11-1 所 示 。 


表 11-1 ndarray 对 象 常用 属性 


属性 说 明 
ndarray.ndim 维度 或 者 轴 的 数量 
ndarray.shape 数组 的 每 个 维度 的 尺寸 
ndarray.size 数组 元 素 的 总 个 数 
ndarray.dtype 数组 元 素 的 类 型 
ndarray.itemsize 数组 元 素 二 进 制 的 大 小 
2. NumpPy 数组 的 创建 
创建 NumPy 数组 的 方法 有 很 多 。 
(1) 可 以 使 用 array0 函 数 从 常规 的 Python 列表 和 元 组 创建 数组 。 所 创建 的 数组 类 型 由 


原 序列 中 的 元 素 类 型 推导 而 来 。 使 用 aray0 函 数 创建 数组 时 ， 参 数 必须 是 由 方 括号 括 起 来 
的 列表 ， 而 不 能 使 用 多 个 数值 作为 参数 调用 array。 代 码 如 下 : 


import numpy as np 导入 模块 NumPy 库 ， 并 以 np 作为 别名 
a= np-.array([1l,10,100]) # 使 用 array () 函数 创建 数组 

print (a) # 输 出 数组 a 

print (a.ndim) # 输 出 数组 a 的 维 数 

print (a.dtype) # 输 出 数组 元 素 的 类 型 

b = np.array ([1.1,3.1415926, 100,0.05]) 

print (b) 

print (b.size) # 输 出 数组 元 素 的 总 个 数 

结果 如 下 所 示 : 

| 1 Sr th | 

证 

int32 

[1.1000000e+00 3.1415926e+00 1.0000000e+02 5.0000000e-02] 
4 


(2) 可 以 在 创建 数组 时 指定 数组 中 元 素 的 类 型 。 代 码 如 下 : 


import numpy as np 
c=np.array( [ [1,2]，[3,4] ], dtype=complex) #complex 为 复数 类 型 


Print(c) 

print (c.ndim) # 输 出 数组 的 维 数 2 
print (c.dtype) # 输 出 数组 元 素 的 类 型 
结果 如 下 所 示 : 


ELTO0R 2 70271 
[ee rll 


Ea 
complex1284 第 
(3) 通常 ， 数 组 的 元 素 开始 都 是 未 知 的 ， 但 是 它 的 大 小 已 知 。 因 此 ,Numpy 提供 了 一 | 11 
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些 占 位 符 创 建 数组 的 函数 。 这 最 小 化 了 扩展 数组 的 需要 并 降低 了 运算 代价 。 
Zeros() 函 数 创建 一 个 全 是 0 的 数组 ,ones0 函 数 创建 一 个 全 是 1 的 数组 , emptyO 函 数 创 
建 一 个 内 容 随机 的 数组 。 代 码 如 下 : 
import numpy as np 志 导 入 模块 NumPy 库 ， 并 以 np 作为 别名 
d=np.zeros((2,2))) ## 创 建 一 个 全 是 0 的 数组 
print (d) 
print (d.dtype) # 输 出 数组 元 素 的 类 型 
e=np.ones((2,2)) # 创 建 一 个 全 是 1 的 数组 


print (e) 
print (e.itemsize) # 输 出 数组 元 素 二 进 制 的 大 小 


结果 如 下 所 示 : 


| | 
| J Sa | 

float64 

| 让 ei | 
和 | 
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(4) NumPy 提供 了 两 个 类 似 range0) 的 函数 来 直接 创建 序列 数组 , 返回 一 个 数列 形式 的 
数组 。 
@ arange() 函 数 : 类 似 于 Python 的 range0) 函 数 ， 通 过 指定 开始 值 、 终 值 和 步 长 来 创建 
- 维 数 组 。 注 意 数组 不 包括 终 值 。 
@ linspace() 函 数 : 通过 指定 开始 值 、 终 值 和 元 素 个 数 (默认 50 个 ) 来 创建 一 维 数组 。 
通过 endpoint 指定 是 否 包括 终 值 ， 默 认 包 括 终 值 。 代 码 如 下 : 


import numpy as np # 导 入 模块 NumPy 库 ， 并 以 np 作为 别名 
fl=np.arange (10, 30, 5) # 初 始 值 为 10， 终 值 为 30 (不 包括 30)， 步 长 为 5 
print (£1) 

f2=np.arange (10) # 仅 使 用 一 个 参数 ， 代 表 的 是 终 值 ， 开 始 值 是 0， 步 长 是 1 
print (f2) 

f3=np.linspace (10,30,5 ) # 初 始 值 为 10， 终 值 为 30 〈 包 括 30)， 元 素 个 数 为 5 
print (£3) 

结果 如 下 所 示 : 


[| 
| 
[0 1Se 205 25 300] 


11.1.2 NumPy 数组 的 算术 运算 
Numpy 数组 的 算术 运算 是 按 元 素 逐 个 进行 运算 ， 结 果 会 输出 新 的 数组 。 代 码 如 下 : 


结果 如 下 所 示 : 


不 同 于 其 他 语言 的 矩阵 运算 ， 积 运算 符 (*) 也 是 元 素 对 元 素 ， 如 果 想 进行 矩阵 积 运 
算 ， 则 需要 使 用 dot0 函 数 来 实现 。 代 码 如 下 : 


结果 如 下 所 示 : 


许多 非 数 组 之 间 的 相互 运算 , 如 计算 数组 所 有 元 素 之 和 ,都 使 用 Numpy 数组 (ndarray 
类 ) 的 方法 来 实现 ， 需 要 使 用 ndarray 类 的 实例 来 调用 这 些 方 法 。 代 码 如 下 : 
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结果 如 下 所 示 : 


[[0.76744923 0.84233824 0.83040435] 
[0.77466154 0.43724419 0.42450924]] 
4.076606780114894 
0.8423382417044871 
0.4245092429469819 


11.1.3 NumPy 数组 的 形状 操作 


1. 数组 的 形状 

数组 的 形状 (shape) 取决 于 每 个 轴 上 的 元 素 个 数 ， 给 定 了 每 个 轴 上 元 素 的 数量 ， 一 个 
数组 的 形状 就 固定 了 。 代 码 如 下 : 

import numpy as np 志 导 入 模块 NumPy 库 ， 并 以 np 作为 别名 

x=np.floor (10*np.random.random( (3, 4) ) ) #floor 向 下 取 整 


print (x) 
print (x.shape) # 输 出 数组 x 的 形状 


结果 如 下 所 示 : 


2， 改变 数组 的 形状 

通过 一 些 命令 可 以 改变 数组 的 形状 , 比如 Numpy 中 的 ravel0 函 数 可 以 将 多 维 数组 转换 
为 一 维 数组 ( 原 数组 自身 不 变 )，transpose0 函 数 对 数组 转 置 ( 原 数组 自身 不 变 )，reshape() 
函数 改变 原 数组 的 形状 并 返回 该 数组 〈 原 数组 自身 不 变 )， 而 shape0 和 resize() 则 会 直接 修 
改 数组 本 身 。 代 码 如 下 : 

import numpy as np 


Xx=np.floor(10*np.random.random((3,4) )) #floor 向 下 取 整 
#ravel () 将 多 维 数组 转换 为 一 维 数组 


print (x.ravel ()) 


x.shape=(6,2) #shape 直接 修改 数组 本 身 ， 形 状 改 成 6*2 
print (x) 
print (x.transpose ()) 对 数组 转 置 〈 原 数组 自身 不 变 ) 

print (x) # 输 出 的 是 6*2 数组 

结果 如 下 所 示 : 

| Ie V0 : (7 0 1 0 J 0 De | 
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11.1.4 NumPy 文件 存 取 数组 操作 


NumpPy 提供 了 多 种 文件 操作 函数 ， 方 便 存 取 数组 内 容 。 文 件 存 取 的 格式 分 为 两 类 ， 
即 二 进 制 和 文本 。 而 二 进 制 格式 的 文件 又 分 为 NumPy 专用 的 格式 化 二 进 制 类 型 和 无 格式 

1. tofile0 函 数 和 fromfile0 函 数 

tofileO0) 函 数 可 以 方便 地 将 数组 中 数据 以 二 进 制 的 格式 写 进 文件 ，tofileO0 函 数 输出 的 数 
据 没有 格式 ， 因 此 用 fromfile0) 读 数据 的 时 候 需 要 格式 化 数据 。 代 码 如 下 : 


import numpy as np 


a = np.arange (0,12) # 初 始 值 为 0， 终 值 为 11， 步 长 为 1 
a.shape = 3,4 #shape 将 数组 形状 改 成 3*4 
print (a) 
a.tofile("a.bin") # 将 数组 a 写 进 文件 a.bin 
b = np.fromfile("a.bin", dtype=np.float) # 按 照 float 类 型 读 入 数据 
print (b) ## 读 入 的 数据 是 错误 的 
print (a.dtype) # 查 看 a 的 数据 类 型 
b = np.fromfile("a.bin", dtype=np.int32) # 按 照 int32 类 型 读 入 数据 
print (b) # 数 据 是 一 维 的 
b.shape = 3, 4 # 按 照 a 的 形状 修改 b 的 shape 
print (b) # 输 出 正确 
结果 如 下 所 示 : 
EO 2 3] 

| | 


[01892120 111] 
12212199579e=314 6.36598737e=314 1.06099790e=313 1248539705e=313 
1=90979621e=313. 2.33419537e=3131] 
int32 
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从 上 面 的 例子 可 以 看 出 ， 需 要 在 读 入 数据 的 时 候 设 置 正确 的 dtype 和 shape 才能 保证 
数据 一 致 。 并 且 tofile0) 函 数 不 管 数组 的 排列 顺序 是 C 语言 格式 的 还 是 Fortran 语言 格式 ， 
统一 使 用 C 语言 格式 输出 。 

2. save0 函 数 和 load0 函 数 

save() 函 数 和 load(0) 函 数 以 NumPy 专用 的 二 进 制 类 型 保存 数据 ， 这 两 个 函数 会 自动 处 
里 元 素 类 型 和 shape 等 信息 , 使 用 它们 读 写 数组 很 方便 , 但 是 save0 函 数 输出 的 文件 很 难 用 
其 他 语言 编写 的 程序 读 入 。 代 码 如 下 : 


ea 


import numpy as np 


a = np.arange(0,12) # 初 始 值 为 0， 终 值 为 11， 步 长 为 1 
a.shape = 3,4 #shape 将 数组 形状 改 成 3*4 
np.save ("a.npy", a) # 将 数组 a 写 进 文件 a.npy 
c= np.load( "a.npy" ) # 使 用 load () 函数 读 取 a.npy 中 的 数据 
print(c) 
结果 如 下 所 示 : 
| 0 | 
556.7] 
Ee ALON 


如 果 将 多 个 数组 保存 到 一 个 文件 中 ， 可 以 使 用 savez 0 函数 。savez 0 函数 的 第 一 个 参 
数 是 文件 名 , 其 后 的 参数 都 是 需要 保存 的 数组 , 也 可 以 使 用 关键 字 参 数 为 数组 起 一 个 名 字 ， 
非 关 键 字 参 数 传递 的 数组 会 自动 起 名 为 arr 0、arr_1、…。savez 函数 输出 的 是 一 个 压缩 文 
件 (扩展 名 为 npz)， 其 中 每 个 文件 都 是 一 个 save 0 函数 保存 的 npy 文件 ， 文 件 名 对 应 于 数 
组 名 。load 0 〇 函数 自动 识别 npz 文件 ， 并 且 返 回 一 个 类 似 于 字典 的 对 象 ， 可 以 通过 数组 名 
作为 关键 字 获 取 数 组 的 内 容 。 代 码 如 下 : 

import numpy as np 

a = np.array([[1,2,3], [4,5,6]]) # 使 用 array () 函数 创建 二 维 数组 

b = np.arange (0, 1.0, 0.1) # 初 始 值 为 0， 终 值 为 1， 步 长 为 0.1 

c = np.sin(b) # 数 组 c 等 于 sin (b) 

# 用 savez () 函数 将 数组 a、 数组 b 和 数组 c 三 个 数组 保存 到 result .npz 文件 中 

np.savez ("result.npz", a, b, sin array = c) 

# 使 用 ad () 函数 读 取 result .npz 文件 ， 通 过 数组 名 作为 关键 字 获 取 数 组 的 内 容 


r= np.load("result.npz") 


print(r["arr 0"]) # 输 出 数组 a 
Pre lar # 输 出 数组 b 
print( r["sin array"]) # 输 出 数组 c 
结果 如 下 所 示 : 

EL 253] 
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[0 . 0.09983342 0.19866933 0.29552021 0.38941834 0.47942554 
0.56464247 0.64421769 0.71735609 0.78332691] 


如 果 用 解压 软件 打开 resultnpz 文件 ， 会 发 现 其 中 有 三 个 文件 , 即 arr_0.npy、arr_1.npy 
和 sin_arraynpy， 其 中 分 别 保存 着 数组 a、 数 组 b 和 数组 c 的 内 容 。 


11.1.5 NumPy 的 图 像 数 组 操作 


1. 图 像 数 组 的 表示 方法 
当 载 入 图 像 时 ， 可 以 调用 array0 函 数 将 图 像 转换 成 NumPy 的 数组 对 象 。NumpPy 中 的 
数组 对 象 是 多 维 的 ， 可 以 用 来 表示 向 量 、 和 矩阵 和 图 像 。 代 码 如 下 : 


from PIL import Image 

from numpy import * # 导 入 图 像 库 

# 使 用 open () 函数 打开 彩色 图 像 picl .jpg， 并 用 array () 函数 转换 为 数组 对 象 

im = array (Image.open('picl.jpg')) 

print (im.shape, im.dtype) # 输 出 数组 im 的 形状 和 数据 类 型 
# 将 彩色 图 像 picl .jpg 进行 灰 度 化 处 理 ， 并 用 array () 函数 转换 为 数组 对 象 

im = array (Image.open('picl.jpg') .convert ('L'),'f') 


print (im.shape, im.dtype) # 输 出 数组 im 的 形状 和 数据 类 型 
结果 如 下 所 示 : 


(600, 500, 3) uint8 
(600, 500) float32 


在 输出 的 结果 中 ， 每 行 的 第 一 个 元 组 表示 图 像 数组 的 大 小 〈 行 、 列 、 颜 色 通 道 ) ， 由 
于 灰 度 图 像 没 有 颜色 信息 ， 所 以 在 形状 元 组 中 ， 它 只 有 两 个 数值 ( 行 、 列 )。 紧 接着 的 字 
符 串 表示 数组 元 素 的 数据 类 型 。 因 为 图 像 通 常 被 编码 成 无 符号 八 位 整数 Cuint8) ， 所 以 在 
第 一 种 情况 下 ， 载 入 图 像 并 将 其 转换 到 数组 中 ， 数 组 的 数据 类 型 为 “uint8”。 在 第 二 种 情 
况 下 ， 对 图 像 进 行 灰 度 化 处 理 ， 并 且 在 创建 数组 时 使 用 额外 的 参数 “f”， 该 参数 将 数据 类 

数组 中 的 元 素 可 以 使 用 下 标 访问 。 位 于 坐标 i、j 以 及 颜色 通道 k 的 像素 值 访问 方法 
如 Ts 


value = im[i,j,k] 


可 以 使 用 数组 切片 方式 访问 多 个 数组 元 素 ， 切 片 方式 返回 的 是 以 指定 间隔 下 标 访问 该 


数组 的 元 素 值 。 
访问 灰 度 图 像 数组 元 素 的 常用 方法 如 下 : 
im[i,:] = im[j,:] # 将 第 j 行 的 数值 赋值 给 第 i 行 
im[:,i] = 100 # 将 第 谍 列 的 所 有 数值 设 为 100 
im[:100, :50] .sum() # 计 算 前 100 行 、 前 50 列 所 有 数值 之 和 第 
im[50:100,50:100] #50 一 100 行 ，50 一 100 列 〈 不 包括 第 100 行 和 第 100 列 ) 1 
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im[i] .mean() # 第 谍 行 所 有 数值 的 平均 值 
| # 最 后 一 列 
im[-2,:] (or im[-2]) # 倒 数 第 二 行 


注意 : 如 果 仅 使 用 一 个 下 标 ， 该 下 标 为 行 的 下 标 。 在 最 后 几 个 方法 中 ， 负 数 切 片 表示 
从 最 后 一 个 元 素 逆向 计数 。 在 图 像 操作 中 将 会 频繁 地 使 用 切片 方式 访问 图 像 数组 的 像素 
值 ， 这 是 一 个 很 重要 的 思想 。 


2. 利用 图 像 数组 进行 灰 度 变 换 

将 图 像 读 入 NumPy 数组 对 象 后 ， 可 以 对 它们 执行 任意 数学 操作 。 一 个 简单 的 例子 就 
是 图 像 的 灰 度 变换 ， 通 过 灰 度 变换 可 以 得 到 与 原始 图 像 不 同 的 图 像 。 

将 图 像 的 NumPy 数组 对 象 生成 图 像 (array( 变换 的 相反 操作 ) 可 以 使 用 PIL 的 
fromarray() 函 数 完成 ， 方 法 如 下 : 


pic = Image.fromarray (im) 


其 中 ，pic 为 生成 图 像 的 名 字 ，im 为 NumPy 数组 对 象 。 如 果 通 过 一 些 操作 将 “uint8” 
数据 类 型 转换 为 其 他 数据 类 型 ， 在 创建 PIL 图 像 之 前 ， 需 要 将 数据 类 型 转换 回来 ， 方 法 
如 下 : 


pic = Image.fromarray (uint8 (im)) 


注意 : NumPy 总 是 将 数组 数据 类 型 转换 成 能 够 表示 数据 的 “最 低 ” 数 据 类 型 ; 对 浮 
点 数 做 乘积 或 除法 操作 会 使 整数 类 型 的 数组 变 成 浮 点 类 型 。 


【 例 1-1】 利用 图 像 数 组 的 灰 度 变换 ， 对 图 像 进行 反 相 处 理 。 代 码 如 下 。 


from PIL import Image # 导 入 图 像 库 

from numpy import * 

imgl=Image.open ('hdtx.jpg') # 打 开 灰 度 图 像 hdtx.jpg 

im = array(imgl) # 使 用 array () 函数 转换 为 数组 对 象 
im2 = 255 - im # 对 图 像 进 行 反 相处 理 

imgl.show() # 显 示 原 始 图 像 

img2=Image .fromarray (im2) # 生 成 图 像 进行 反 相 处 理 后 的 图 像 img2 


img2.show() 


结果 如 图 11-1 和 图 11-2 所 示 。 


图 11-1 原始 图 像 图 11-2 反 相处 理 后 的 图 像 


3. 直方 图 均衡 化 

图 像 灰 度 变 换 中 一 个 非常 有 用 的 例子 就 是 直方 图 均衡 化 。 直 方 图 均衡 化 是 指 将 一 幅 图 
像 的 灰 度 直方 图 变 平 ， 使 变换 后 的 图 像 中 每 个 灰 度 值 的 分 布 概率 都 相同 。 在 对 图 像 做 进 一 
步 处 理 之 前 ， 直 方 图 均衡 化 通常 是 对 图 像 灰 度 值 进行 归 一 化 的 一 个 非常 好 的 方法 ， 并 且 可 
以 增强 图 像 的 对 比 度 。 

在 这 种 情况 下 ， 直 方 图 均衡 化 的 变换 函数 是 图 像 中 像素 值 的 累积 分 布 函 数 cdf 
(cumulative distribution function， 将 像素 值 的 范围 映射 到 目标 范围 的 归 一 化 操作 )。 

定义 histeq0) 函 数 ， 实 现 直 方 图 均衡 化 ， 代 码 如 下 。 


def histeq(im,nbr bins=256) : 


# 计 算 图 像 的 直方 图 
imhist,bins = histogram(im.flatten(),nbr bins,normed=True) 
cdf = imhist.cumsum() #cdf 累积 分 布 函数 


cdf = 255 * cdf / cdf[-1]  # 归 一 化 

# 使 用 累积 分 布 函数 的 线性 插值 ， 计 算 新 的 像素 值 
im2 = interp(im.flatten(),bins[:-1],cdf) 
return im2.reshape (im.shape), cdf 


该 函数 有 两 个 输入 参数 ， 一 个 是 灰 度 图 像 im， 男 一 个 是 直方 图 中 使 用 小 区 间 的 数目 
nbr_bins， 默 认为 256。 同 时 该 函数 返回 直方 图 均衡 化 后 的 图 像 的 NumPy 数组 和 用 来 做 像 
素 值 映射 的 累积 分 布 函数 cdf。 注 意 ， 函 数 中 使 用 到 累积 分 布 函数 的 最 后 一 个 元 素 〈 下 标 
为 -1)， 目 的 是 将 其 归 一 化 到 0 一 1 范围 。 

【 例 11-2】 利用 图 像 数 组 的 灰 度 变换 ， 将 灰 度 图 像 做 直方 图 均衡 化 处 理 ， 代 码 如 下 。 


from PIL import Image 
from numpy import * 


imgl=Image.open ('picjhh.jpg') # 打 开 灰 度 图 像 picjhh.jpg 

im = array(imgl) 

im2,cdf = histeq (im) # 调 用 均衡 化 函数 histeq 

imgl .show () # 显 示 原 始 图 像 picjhh .jpg 
img2=Image.fromarray(uint8 (im2) ) # 生 成 图 像 均 衡 化 处 理 后 的 图 像 img2 


img2.show() 


结果 如 图 11-3 和 图 11-4 所 示 。 
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图 11-3 ”原始 图 像 图 11-4 直方 图 均衡 化 处 理 后 的 图 像 


二 级 Python 绑 杖 背 丧 


通过 两 幅 图 像 的 对 比 ， 可 以 看 到 直方 图 均衡 化 后 的 图 像 对 比 度 明 显 增强 了 ， 原 图 像 灰 
色 区 域 的 细节 变 得 清晰 。 


11.2 ”Matplotlib 数据 可 视 化 


Matplotlib 是 Python 的 可 视 化 应 用 库 。 它 支持 各 种 平台 ， 并 且 功 能 强大 ， 可 以 非常 
方便 地 创建 海量 类 型 的 2D 图 表 和 一 些 基 本 的 3D 图 表 ， 十 分 适合 交互 式 地 进行 绘图 和 可 
视 化 。 

Matplotlib 库 在 Windows 平台 的 安装 方法 是 在 命令 行使 用 pip 命令 安装 : 


pip install Matplotlib 


11.2.1 使 用 Matplotlib.pyplot 模块 绘图 


Matplotlib 的 pyplot 模块 提供 了 和 Matlab 相似 的 绘图 API， 方 便 用 户 快速 绘图 。 
Matplotlib.pyplot 是 一 些 命令 样式 函数 ， 每 一 个 pyplot 函数 都 会 改变 图 形 ， 例 如 创建 图 形 、 
在 图 行 里 创建 绘图 区 、 在 绘图 区 画 线 、 用 标签 装饰 图 形 等 。 

使 用 Matplotlib.pyplot 模块 绘图 ， 一 般 遵循 以 下 5 个 步骤 ; 

(1) 创建 一 个 图 纸 (figure)。 

(2) 在 图 纸 上 创 建 一 个 或 多 个 绘图 (plotting) 区 域 (也 叫 子 图 、 坐 标 系 / 轴 ，axes )。 

(3) 在 plotting 区 域 上 描绘 点 、 线 等 各 种 marker。 

(4) 为 plotting 添加 修饰 标签 〈 绘 图 线 上 的 或 坐标 轴 上 的 )。 

(5) 其 他 各 种 制作 。 

在 上 面 绘图 的 过 程 中 ， 主 要 是 三 个 元 素 ， 即 变量 、 函 数 、 图 纸 (figure) 和 子 图 (axes, 
也 可 以 理解 成 坐标 轴 )。 其 中 , 变量 和 函数 通过 改变 figure 和 axes 中 的 元 素 (如 title、label、 
点 和 线 等 ) 来 描述 figure 和 axes， 也 就 是 在 画布 上 绘图 。 绘 图 结构 如 图 11-5 所 示 。 


Figure 


图 11-5 绘图 结构 


【 例 11-3】 使 用 Matplotlib pyplot 模块 绘图 ， 绘 制 正弦 三 角 函 数 和 余弦 函数 图 像 ， 代 
码 如 下 。 


from numpy import * 
import matplotlib.pyplot as plt # 载 入 绘图 模块 pyplot， 并 且 重 命名 为 plt 


plt.figure (figsize=(8, 4)) # 创 建 一 个 绘图 对 象 ， 大 小 为 800X 400 像素 
x=arange (0, 4*math.pi,0.01) # 初 始 值 为 0， 终 值 为 4*pi， 步 长 为 0.01 
y=sin (x) 

Z=Ccos (x) 

# 调 用 plot () 函数 绘图 


plt.plot (x,y, label="$sin (x) $",color="red", linewidth=3) 
plt.plot (x,z,"b--",label="$cos (x) $") 


plt.xlabel ("x axial") # 设 置 X 轴 标 题 
plt.ylabel ("sin (x) and cox(x)") # 设 置 Y 轴 标 题 
plt.title ("PyPlot Mapping") # 设 置 图 表 标题 
Bum # 设 置 Y 轴 范围 
plt.grid(True) # 显 示 网 格 
plt.1legend() # 显 示 图 例 (legend) 
plt.savefig("sincon.png") # 保 存 图 像 
plt.show() # 显 示 图 像 


结果 如 图 11-6 所 示 。 
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图 11-6 ”绘制 正弦 三 角 函 数 和 余弦 函数 


1. 调用 figure 创建 一 个 绘图 对 象 

格式 : plt.figure(figsize=(8,4)) 

说 明 : figsize 参数 指定 绘图 对 象 的 宽度 和 高 度 ， 单 位 为 英寸 ; dpi 参数 指定 绘图 对 象 的 
分 辨 率 ， 即 每 英寸 多 少 个 像素 ， 默 认 值 为 100。 因 此 本 例 中 所 创建 的 图 表 窗口 的 宽度 为 
8X100= 800 像素 ， 宽 度 为 4X100= 400 像素 。 

2. 通过 调用 plot0 函 数 在 当前 的 绘图 对 象 中 进行 绘图 

创建 Figure 绘图 对 象 之 后 ， 接 下 来 调用 plot0 函 数 在 当前 的 Figure 对 象 中 绘图 。 实际 | 第 
上 plot0 是 在 Axes ( 子 图 ) 对 象 上 绘图 ， 如 果 当 前 的 Figure 对 象 中 没有 Axes 对 象 , 将 会 为 | 11 
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二 级 Python 绑 栓 背 直 


之 创建 一 个 几乎 充满 整个 图 表 的 Axes 对 象 ， 并 且 使 此 Axes 对 象 成 为 当前 的 Axes 对 象 。 
格式 : plt.plot(x,z,"b--",label="$cos(x^2)$") 

说 明 : 

(1) 将 xy 数组 传递 给 plot。 

(2) 通过 第 三 个 参数 "b--" 指 定 曲线 的 颜色 和 线 型 ， 这 个 参数 称 为 格式 化 参数 ， 它 能 
通过 一 些 易 记 的 符号 快速 指定 曲线 的 样式 。 其 中 b 表示 蓝 色 ，"--" 表 示 线 型 为 虚线 。 常 用 的 
绘图 参数 如 下 。 

G@ 颜色 (color， 简 写 为 c) 

蓝 色 : 'b' (blue) 

绿色 : 'g' (green) 

红色 : mm (red) 

蓝 绿色 〈 墨 绿色 ): 'c' (cyan) 

红 紫 色 〔 洋 红 ): 'm' (magenta) 

黄色 : 'y' (yellow) 

黑色 :ko (black) 

白色 : 'w' (white) 

灰 度 表示 : e.g. 0.75〈[0.1] 内 任意 浮 点 数 ) 

@ 线 型 (Line styles， 简 写 为 ls) 

实 线 : "~ 


星 形 : 和 *' 

(3) 也 可 以 用 关键 参数 指定 各 种 属性 。 

label: 所 绘制 曲线 的 名 字 , 在 图 例 中 显示 。 只 要 在 字符 串 前 后 添加 “$”* 符 号 ,Matplotlib 
就 会 使 用 其 内 嵌 的 latex 引擎 绘制 数学 公式 。 

color: 指定 曲线 的 颜色 。 

linewidth: 指定 曲线 的 宽度 ， 默 认为 1。 

例如 : 


plt.plot (x,y,1label="$sin (x) $",color="red", linewidth=3) 


设置 曲线 标题 为 sin(x)， 颜 色 为 红色 ， 线 条 宽度 为 3。 
3. 设置 绘图 对 象 的 各 个 属性 

(1) xlabel、ylabel; 分 别 设置 X、Y 轴 的 标题 文字 。 
(2) title: 设置 图 的 标题 。 

(3) xlim、ylim: 分 别 设置 X、Y 轴 的 显示 范围 。 


(4) legend: 显示 图 例 ， 即 图 中 表示 每 条 曲线 的 标签 和 样式 的 矩形 区 域 。 

(5) grid(True): 显示 网 格 。 

4. 清空 plt 绘制 的 内 容 

(1) plt.cla0: 关闭 plt 绘制 的 图 像 。 

(2) plt.close(0): 关闭 0 号 图 。 

(3) plt.close(all): 关闭 所 有 图 。 

5$. 图 形 保存 和 输出 设置 

可 以 调用 plt.savefig0) 将 当前 的 Figure 对 象 保存 成 图 像 文件 , 图 像 格式 由 图 像 文件 的 扩 
展 名 决定 。 下 面 的 命令 将 当前 的 图 表 保存 为 “pic.png”， 并 且 通 过 dpi 参数 指定 图 像 的 分 辨 
率 为 120， 因 此 输出 图 像 的 宽度 为 8X 120 = 960 个 像素 。 


plt.savefig("pic.png",dpi=120) 


Matplotlib 中 绘制 完成 图 形 之 后 通过 show0 展 示 出 来 ， 用 户 可 以 通过 图 形 界面 中 的 工 
具 栏 对 其 进行 设置 和 保存 。 

6， 绘制 多 子 图 

在 Matplotlib 下 ， 一 个 Figure 对 象 可 以 包含 多 个 子 图 (Axes)， 可 以 使 用 subplotO 快 速 
绘制 包含 多 个 子 图 的 图 表 ， 其 调用 形式 如 下 : 


subplot (numRows, numCols, plotNum) 


subplot 将 整个 绘图 区 域 等 分 为 numRows 行 、numCols 列 个子 区 域 ， 然 后 按照 从 左 到 
右 、 从 上 到 下 的 顺序 对 每 个 子 区 域 进行 编号 ， 左 上 的 子 区 域 的 编号 为 1。 

如 果 numRows、numCols 和 plotNum 这 三 个 数 都 小 于 10 的 话 ， 可 以 把 它们 缩写 为 一 
个 整数 ， 例 如 subplot(323) 和 subplot(3,2,3) 是 相同 的 ， 表 示 图 表 被 分 割 成 3X2 (3 行 2 列 ) 
的 网 格子 区 域 ， 在 第 4 个 子 区 域 绘制 。 

subplot 在 plotNum 指定 的 区 域 中 创建 一 个 轴 对 象 。 如 果 新 创建 的 轴 和 之 前 创建 的 轴 重 
登 的 话 ， 那 么 ， 之 前 的 轴 将 被 删除 。 

【 例 1-4】 使 用 matplotlib.pyplot 模块 绘制 多 个 子 图 ， 代 码 如 下 。 


import matplotlib.pyplot as plt # 载 入 绘图 模块 pyplot， 并 且 重 命名 为 plt 
import numpy as np 


tl1 = np.arange (0, 5, 0.2) # 使 用 arange 函数 生成 数组 ， 步 长 0.2 

t2 = np.arange (0, 5, 0.02) # 使 用 arange 函数 生成 数组 ， 步 长 0.02 
pit.figure (figsize=(8,4)) # 创 建 一 个 绘图 对 象 ， 大 小 为 800X400 像素 
pit.subplot (221) # 选 择 左上 角 区 域 为 子 图 绘图 区 域 


# 调 用 plot () 函数 绘图 ， 使 用 tl 和 t+2 绘制 两 条 正弦 曲线 

plt.plot (tl1, np.sin(t1),'bo', t2,np.sin(t2),"'r-——') 
plt.subplot (222) # 选 择 右上 角 区 域 为 子 图 绘图 区 域 
# 调 用 plot () 函数 绘图 ， 使 用 t2 绘制 一 条 余弦 曲线 

Pilteplot(t2, Tp eos * npapl wt2)y r=") 

# 选 择 下 面 区 域 为 子 图 绘图 区 域 ， 并 将 子 图 背景 设置 为 黄色 
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Plt.subplot (212, facecolor="y") 

# 调 用 plot () 函数 绘图 ，y=xz 的 平方 

PE BIoEU 27 3 ES 97 Lol) 
plt.savefig("dzt.png") 坦 保存 图 片 
plt.show() # 展 示 图 片 


结果 如 图 11-7 所 示 。 
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图 11-7 绘制 多 个 子 图 


7. 绘制 多 幅 图 像 

如 果 需 要 同时 绘制 多 幅 图 像 , 可 以 给 figure0 传 递 一 个 整数 参数 ,指定 Figure 对 象 的 序 
号 ， 如 果 序 号 所 指定 的 Figure 对 象 已 经 存在 ， 将 不 创建 新 的 对 象 ， 而 只 是 让 它 成 为 当前 的 
Figure 对 象 。 

【 例 11-5$】 使 用 matplotlib pyplot 模块 绘制 多 个 子 图 ， 代 码 如 下 。 


import numpy as np 
import matplotlib.pyplot as plt 


plt.figure(1) 创建 图 表 1 
plt.figure(2) # 创 建 图 表 2 
axl = plt.subplot (211) # 在 图 表 2 中 创建 子 图 1 
ax2 = plt.subplot (212) # 在 图 表 2 中 创建 子 图 2 


x = np.linspace (0, 3, 100) # 创 建 序列 数组 : 初始 值 为 0, 终 值 为 3, 元 素 个 数 为 100 


for 1 in 


plt.figure (1) # 选 择 图 表 1 
plt.plot (x，np.exp(i * x / 3)) # 调 用 plot() 函数 绘图 
plt.scal(laxl) # 选 择 图 表 2 的 子 图 1 
plt.plot (x, np.sin(i * x)) # 调 用 plot () 函数 绘图 
plt.sca (ax2) # 选 择 图 表 2 的 子 图 2 
plt.plot (x, np.cos(i * x)) # 调 用 plot () 函数 绘图 
plt.show() 井 展 示 图 片 


结果 如 图 11-8 所 示 。 


0 0 1 1 2 2 0 Ti 
图 11-8 绘制 多 幅 图 表 


8.， 在 图 表 中 显示 中 文 
matplotlib 的 默认 配置 文件 中 所 使 用 的 字体 无 法 正确 显示 中 文 。 为 了 让 图 表 能 正确 显示 
中 文 ， 可 在 .py 文件 头 加 上 如 下 内 容 : 


plt.rcParams['font.sans-serif'] = ['KaiTi'] 
plt.rcParams['axes.unicode minus'] = False 


其 中 ,，“KaiTi” 表 示 楷 体 。 常 用 的 中 文字 体 表示 如 下 SimSun 表示 宋体 ，SimHei 表 
示 黑 体 ，Microsoft YaHei 表示 微软 雅 黑 ，LiSu 表示 隶书 ， FangSong 表示 仿宋 ; YouYuan 表 
示 幼 圆 SSTSong 表示 华文 宋体 ，STHeiti 表示 华文 黑体 。 

【 例 11-6】 使 用 matplotlib.pyplot 模块 绘制 正弦 曲线 , 并 在 图 表 中 显示 中 文 , 代码 如 下 。 


from numpy import * 

import matplotlib.pyplot as plt # 载 入 绘图 模块 pyplot， 并 且 重 命名 为 pl 
# 下 面 两 条 命令 设置 可 以 显示 中 文 ， 并 将 字体 设 为 楷体 
plt.rcParams['font.sans-serif'] = ['KaiTi'] 
plt.rcParams['axes.unicode minus'] = False 

plt.figure (figsize=(8,4)) # 创 建 一 个 绘图 对 象 ， 大 小 为 800X 400 像素 
x=arange (0, 4*math.pi,0.2) # 初 始 值 为 0， 终 值 为 4*pi， 步 长 为 0.2 

# 调 用 plot 函数 绘图 : 绘制 正弦 曲线 ， 线 条 颜色 为 红色 

plt.plot (x, sin (x), label="$sin (x) $",color="red", linewidth=5) 


plt.xlabel ("x 轴 ") # 设 置 X 轴 标 题 

plt.ylabel ("y 轴 ") ## 设 置 Y 轴 标 题 

plt.title ("y=sin (x) 正弦 曲线 ") 井 设置 图 表 标题 

pIt. ylim(=1,1) # 设 置 Y 轴 范围 

plt.grid(True) # 显 示 网 格 

plt.1legend() # 显 示 图 例 (legend) 

plt.savefig("sincon.png") # 保 存 图 像 

plt.show() # 展 示 图 像 第 

结果 如 图 11-9 所 示 。 条 
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y=sin(x) 正 弦 曲 线 


图 11-9 在 图 表 中 显示 中 文 


11.2.2 使 用 matplotlib.pylab 模块 绘制 直方 图 、 条 形 图 、 散 点 图 、 


饼 状 图 等 


Matplotlib 的 pylab 模块 方便 用 户 快速 进行 计算 和 绘图 。 使 用 其 绘制 出 来 的 图 形 效果 和 
Matlab 下 绘制 的 图 形 非常 相似 。pyplot 模块 提供 了 14 个 用 户 绘制 “基础 图 表 ” 的 常用 函数 ， 


如 表 11-2 所 示 。 


表 11-2 pyplot 库 中 绘制 基础 图 表 函 数 


属性 说 明 
plt.plot(x,y,fmt,...) 绘制 坐标 图 
plt.boxplot(data,notch,position) 绘制 箱 形 图 
plt.bar(left,height,width,bottom) 绘制 条 形 图 
plt.barh(width,bottom,left,height) 绘制 横向 条 形 图 
plt.polar(theta,r) 绘制 极 坐标 图 
plt.pie(data,explode) 绘制 饼 图 
plt.psd(x,NFFT=256,pad_to,Fs) 绘制 功率 谱 密 度 图 
plt.scatter(x.y) 绘制 散 点 图 
plt.step(x,y,where) 绘制 步 阶 图 
plt.hist(x,bins.normed) 绘制 直方 图 
plt.vlines() 绘制 垂直 图 
pltplot_dateO) 绘制 日 期 图 


下 面 通过 一 些 实例 介绍 如 何 使 用 matplotlib 绘图 
1. 直方 图 


直方 图 又 称 质量 分 布 图 ， 是 一 种 统计 报告 图 ， 


一 系列 高 度 不 等 的 纵向 条 纹 或 线段 表 


示 数 据 分 布 的 情况 。 一 般 用 横 轴 表示 数据 类 型 ， 纵 轴 表 示 分 布 情况 。 直 方 图 的 绘制 通过 


pyplot 中 的 histO 绘 制 ， 调 用 方式 如 下 : 


pyplot.hist (x,bins=10, normed=False,color=None,range=None, rwidth=None, 


orientation=u'vertical',**kwargs) 


主要 参数 说 明 如 下 : 

(1) x: 数组 参数 ， 指 定 每 个 bin (箱子 ) 分 布 在 x 轴 的 位 置 。 

(2) bins: 指定 bin 箱子) 的 个 数 ， 也 就 是 总 共有 几 条 直方 图 。 

(3) normed: 指定 是 否 对 Y 轴 数 据 进行 标准 化 。 默 认为 False， 如 果 为 True， 则 为 本 
区 间 的 点 在 所 有 的 点 中 所 占 的 概率 。 

(4) color: 指定 条 状 图 〈 箱 子 ) 的 颜色 。 

【 例 11-7】 产生 两 万 个 正 态 分 布 随 机 数 ， 用 概率 分 布 直方 图 显示 ， 代 码 如 下 。 


import numpy as np 
import matplotlib.pyplot as plt # 载 入 绘图 模块 pyplot， 并 且 重 命名 为 plt 


zx=100 # 设 置 均值 ， 即 中 心 所 在 点 
sg=20 # 用 于 将 每 个 点 都 扩大 响应 的 倍数 
# 下 面 的 命令 设置 可 以 显示 中 文 ， 并 将 字体 设 为 楷体 
plt.rcParams['font.sans-serif'] = ['KaiTi'] 


#x 中 的 点 以 zx 为 中 心 ， 分 布 在 zx 旁边 


X=Zx+Sg*np.random.randn (20000) 
# 绘 制 直方 图 bins 设置 分 组 的 个 数 为 100， 显 示 100 个 直方 


plt.hist (x,bins=100, color='red',normed=True) 


plt.xlabel ("x 轴 ") # 设 置 X 轴 标题 
plt.ylabel ("y 轴 ") # 设 置 Y 轴 标 题 
plt .title ("直方 图 ") # 设 置 图 表 标 题 
plt.show() # 显 示 图 表 


结果 如 图 11-10 所 示 。 
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图 11-10 直方 图 


2. 条 形 图 
条 形 图 是 用 一 个 单位 长 度 表 示 一 定 的 数量 ， 根 据 数量 的 多 少 画 成 长 短 不 同 的 直 条 ， 然 “| 第 
后 把 这 些 直 条 按 一 定 的 顺序 排列 起 来 。 从 条 形 统计 图 中 很 容易 看 出 各 种 数量 的 多 少 。 条 形 | 11 
章 


大 学 矿 齐 与 履 握 可 邢 化 应 历 
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图 的 绘制 通过 pyplot 中 的 bar0 或 者 barh0 实 现 。bar0 默 认 绘制 竖 直 方向 的 条 形 图 ， 可 以 通 
过 设置 orientation = "horizontal" 参数 来 绘制 水 平方 向 的 条 形 图 ， barh0) 绘 制 水 平方 向 的 条 
形 图 。 

【 例 11-8】 使 用 Matplotlib pyplot 模块 ， 绘 制 竖 直 条 形 图 ， 代 码 如 下 。 


import numpy as np 

import matplotlib.pyplot as plt # 载 入 绘图 模块 pyplot， 并 且 重 命名 为 plt 
x = np.arange (10) #x 轴 0-10 

y = np.random.randint (10，30，10) #y 轴 随 机 生成 10 个 数值 (10-30) 

# 设 置 可 以 显示 中 文 ， 并 将 字体 设 为 楷体 

plt.rcParams['font.sans-serif'] = ['KaiTi'] 

# 绘 制 竖 直 条 形 图 ， 线 条 颜色 为 红色 

plt.bar (left=x,height=y, width=0.5,color="red") 


plt.xlabel ("zx 轴 ") # 设 置 X 轴 标题 
plt.ylabel ("y 轴 ") 设置 Y 轴 标题 
plt.title(" 条 形 图 ") # 设 置 图 表 标题 
plLt.show() # 显 示 图 表 


结果 如 图 11-11 所 示 。 
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图 11-11 条 形 图 
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【 例 11-9】 使 用 Matplotlib.pyplot 模块 绘制 并 列 的 条 形 图 ， 代 码 如 下 。 


import numpy as np 

import matplotlib.pyplot as plt # 载 入 绘图 模块 pyplot， 并 且 重 命名 为 plt 
x = np.random.randint(10，50，20) ”#z 轴 随 机 生成 20 个 数值 (10-50) 

yl = np.random.randint (10，50，20) #yl 轴 随 机 生成 20 个 数值 (10-50) 

y2 = np.random.randint (10，50，20) #y2 轴 随 机 生成 20 个 数值 (10-50) 

w= 0S5 #L 用 来 改变 x 轴 位 置 

# 绘 制 竖 直 方向 直方 图 ， 线 条 颜色 为 红色 


plt.bar (left=x, height=yl, width=0.5, color="red") 

# 绘 制 竖 直 方向 直方 图 : 通过 设置 left 来 设置 并 列 显示 ， 线 条 颜色 为 蓝 色 
plt.bar (left=x + r, height=y2, width=0.5, color="blue") 
plt.show() # 显 示 图 表 


结果 如 图 11-12 所 示 。 
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图 11-12 并 列 的 条 形 图 


【 例 11-10】 使 用 matplotlib.pyplot 模块 绘制 层 琶 的 条 形 图 ， 代 码 如 下 。 


import numpy as np 
import matplotlib.pyplot as plt # 载 入 绘图 模块 pyplot， 并 且 重 命名 为 plt 


x=np.random.randint (10, 50, 20) #x 轴 随 机 生成 20 个 数值 (10-50) 
yl=np.random.randint (10,50,20) ##Y1 轴 随 机 生成 20 个 数值 (10-50) 
y2=np.random.randint (10, 50, 20) #y2 轴 随 机 生成 20 个 数值 (10-50) 
plt.ylim(0,100) # 设 置 y 轴 的 显示 范围 

# 设 置 可 以 显示 中 文 ， 并 将 字体 设 为 楷体 

plt.rcParams['font.sans-serif'] = ['KaiTi'] 


# 绘 制 竖 直方 向 直方 图 ， 线 条 颜色 为 红色 

plt.bar (left=x, height=yl1,width=0.5,color="red", label="$y1$") 

# 设 置 一 个 底部 ， 底 部 就 是 yl 的 显示 结果 ，y2 在 上 面 继续 累加 

plt.bar (left=x, height=y2, bottom=yl1,width=0.5,color="blue", label="$y2$") 


plt.1legend() # 显 示 图 例 (legend) 

plt.xlabel ("x 轴 ") # 设 置 xX 轴 标题 

plt.ylabel ("y 轴 ") # 设 置 Y 轴 标 题 

P1It.title(" 层 琶 的 条 形 图 ") ## 设 置 图 表 标 题 

plt.show() # 显 示 图 表 
第 
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图 11-13 层 受 的 条 形 图 


3.， 散 点 图 

散 点 图 在 回归 分 析 中 ， 数 据点 在 直角 坐标 系 平面 上 的 分 布 图 中 ， 散 点 图 表示 因 变量 随 
自 变 量 而 变化 的 大 致 趋势 ， 据 此 可 以 选择 合适 的 函数 对 数据 点 进行 拟 合 。 一 般 用 两 组 数据 
构成 多 个 坐标 点 ， 考 察 坐标 点 的 分 布 ， 判 断 两 变量 之 间 是 否 存在 某 种 关联 或 总 结 坐标 点 的 
分 布 模式 。 散 点 图 将 序列 显示 为 一 组 点 ， 值 由 点 在 图 表 中 的 位 置 表示 ， 类 别 由 图 表 中 的 不 
同 标记 表示 。 散 点 图 通常 用 于 比较 跨 类 别 的 聚合 数据 。 

散 点 图 通过 pyplot 中 的 scatter() 来 绘制 ， 调 用 方式 如 下 : 


pyplot.scatter (x,y, c=color, s=scale,alpha=0.6,edgecolors="‘white’) 


主要 参数 说 明 如 下 : 

(1 Xs Vy: 表示 输入 的 数据 。 

(2) c: 表示 散 点 的 颜色 。 

(3) s: 表示 散 点 的 大 小 。 

(4) alpha: 表示 散 点 的 透明 度 。 

(5) edgecolors: 设置 散 点 周围 的 颜色 。 

【 例 11-11】 使 用 matplotlib.pyplot 模块 的 scatter0 绘 制 散 点 图 ， 代 码 如 下 。 


import numpy as np 


import matplotlib.pyplot as plt # 载 入 pyplot 模块 , 并且 重 命名 为 plt 
n= 100 
for color in ['red','blue','green']: # 使 用 三 种 散 点 颜色 进行 绘图 
x, y=np.random.rand (2,n) # 散 点 坐标 位 置 随机 产生 
scale=100*np.random.rand (n) # 散 点 大 小 随机 产生 


# 根 据 color 〈 散 点 颜色 ) 的 值 ， 调 用 scatter () 绘制 散 点 图 
plt.scatter (x, y, c=color, s=scale, label=color, alpha=0.6,edgecolors='white') 
pit.title('Scatter') 捍 设置 图 表 标题 


例 


plt.xlabel ('x') 


斐 设置 X 轴 标题 


plt.ylabel ('y') 坦 设置 y 轴 标 题 
plt.1legend() # 显 示 图 例 
plt.grid(True) # 显 示 网 格 
plt.show() # 显 示 图 表 
结果 如 图 11-14 所 示 。 
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图 11-14 散 点 图 


4. 饼 状 图 

饼 状 图 常用 于 统计 学 模型 。 饼 状 图 显示 一 个 数据 系列 中 各 项 的 大 小 与 各 项 总 和 的 比 
饼 状 图 中 的 数据 点 显示 为 整个 饼 状 图 的 百分比 。 

【 例 11-12】 使 用 matplotlib.pyplot 模块 的 pie0 绘 制 饼 状 图 ， 代 码 如 下 。 


import matplotlib.pyplot as plt 

# 设 置 6 个 数据 点 的 值 ， 根 据 数 据 在 所 有 数据 中 所 占 的 比例 显示 结果 

x= [222, 42, 455, 664, 454, 334] 

# 设 置 6 个 数据 点 的 标签 

apb=[vChina Swiss USA “UK, "Laos”, Spain 

#explode 设置 每 一 块 或 者 很 多 块 突出 显示 ， 由 下 面 的 exp 数组 决定 
exp=[0,0.03,0,0.03,0,0.03] 

井 设 置 显示 一 个 正 圆 ， 长 宽 比 为 1:1 

plt.axes (aspect=1) 

# 绘 制 饼 状 图 ，autopct 设置 百分数 保留 两 位 小 数 ，shadow 设 为 True， 显 示 阴 影 
plt.pie (xX, labels=lab,autopct="'%] .2f%%',explode=exp,shadow=True) 


plt.title ("Pie Graph") # 设 置 图 表 标题 
plt.show() # 显 示 图 表 第 
结果 如 图 11-15 所 示 。 11 
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本 章 小 结 


本 章 主 要 介绍 了 Python 的 科学 计算 与 数据 分 析 所 需 的 NumPy 库 和 数据 可 视 化 所 需 的 
Matplotlib 库 的 使 用 方法 。 通 过 对 本 章 的 学 习 ， 要 求 读者 掌握 NumPy 数组 的 算术 运算 ， 图 
像 数 组 的 表示 方法 ， 利 用 图 像 数 组 进行 灰 度 变换 ， 直 方 图 均衡 化 ， 使 用 Matplotlib .pylab 模 
块 绘制 直方 图 、 条 形 图 、 饼 状 图 、 散 点 图 等 ， 为 后 续 的 深入 学 习 打 下 良好 的 理论 基础 。 


第 12 章 数据 挖掘 与 机 器 学 习 


导 学 

机 器 学 习 介 于 计算 机 科学 、 统 计 学 、 数 学 、 工 程 学 等 几 个 不 同 理论 学 科 之 间 ， 研 究 计 
算 机 模拟 或 实现 人 类 的 学 习 行 为 ， 来 获取 新 的 知识 或 技能 ， 是 人 工 智 能 的 核心 。Python 机 
器 学 习 本 质 上 是 数据 分 析 。 通过 学 习 Python 机 器 学 习 与 数据 挖 气 ， 不 但 能 够 帮助 学 生 增 强 
逻辑 思维 ， 还 可 让 学 生 掌 握 机 器 学 习 这 一 当今 热点 前 沿 知识 。 

了 解 : 数据 挖 握 、 机 器 学 习 的 概念 与 定义 ， 常 见 的 机 器 学 习 算法 。 

掌握 : 使 用 Python 语言 创建 机 器 学 习 程序 的 方法 与 机 器 学 习 库 sklearn 的 应 用 。 

对 于 数据 分 析 来 说 , 现在 首选 的 编程 工具 就 是 Python 语言 。Python 具有 海量 的 模块 库 ， 
提供 了 IT 行业 最 前 沿 的 开发 功能 ， 例 如 ， 机 器 学 习 库 scikit-learn 就 是 Python 的 开源 模块 ， 
能 够 提供 包括 分 类 、 回 归 、 聚 类 等 算法 ， 可 以 帮助 使 用 者 简单 、 高 效 地 进行 数据 挖掘 与 
分 析 。 


12.1 机 器 学 习 概念 与 操作 流程 


12.1.1 概念 与 定义 


机 器 学 习 的 定义 是 “利用 经 验 来 改善 计算 机 系统 的 自身 性 能 "。“ 经 验 ” 在 计算 机 系统 
中 主要 是 以 数据 的 形式 存在 的 ， 机 器 学 习 需 要 设法 对 数据 进行 分 析 ， 这 就 使 其 逐渐 成 为 智 
能 数据 的 分 析 技术 ， 并 因此 受到 越 来 越 多 的 关注 。 

数据 挖掘 的 定义 是 “识别 出 巨 量 数据 中 有 效 的 、 新 颖 的 、 潜 在 有 用 的 、 最 终 可 理解 的 
模式 的 非 平凡 过 程 ”。 顾 名 思 义 ， 数 据 挖掘 就 是 试图 从 海量 数据 中 找 出 有 用 的 知识 。 

数据 挖掘 可 以 认为 是 数据 库 技术 与 机 器 学 习 的 交叉 ， 它 利用 数据 库 技术 来 管理 海量 的 
数据 ， 并 利用 机 器 学 习 来 进行 数据 挖掘 与 分 析 ， 其 关系 如 图 12-1 所 示 。 


数据 挖掘 


数据 分 析 技术 是 人 数据 管理 技术 


机 器 学 习 | 数据 库 


图 12-1 数据 挖掘 与 机 器 学 习 的 关系 
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12.1.2 AI 操作 流程 


人 工 智能 、 机 器 学 习 通常 都 使 用 两 组 数据 ， 一 组 是 训练 数据 ， 另 一 组 是 测试 数据 。 每 
组 数据 中 包含 一 组 多 维 参数 数据 集 ， 为 特征 数据 集 ， 一 组 一 维 数组 作为 结果 分 类 数据 。 一 
共 四 个 数据 集合 ， 其 名 称 如 下 : 

x_train: 训练 数据 : 多 维 参数 数据 集 ; 

y_train: 训练 数据 : 一 维 结果 数据 集 ; 

x_test; 测试 数据 ， 多维 参 数 数据 集 ; 

y_test: 测试 数据 : 一 维 结果 数据 集 。 

通常 ，train 数据 集 用 于 训练 ，test 数据 集 用 于 测试 。 对 y_train 数据 集 进行 分 析 以 后 ， 
会 生成 一 个 新 的 一 维 预 测 结 果 数 据 集 y_pred。 通过 对 结果 数据 集 y_pred 与 实际 测试 数据 集 
y_test 进行 对 比 ， 就 可 以 检测 算法 模型 的 准确 度 。 

机 器 学 习 的 算法 流程 如 下 : 

(1) 选择 模型 函数 mx_fun，mx_fun 是 自 定义 的 机 器 学 习 函 数 接口 ; 

(2) 把 训练 特征 数据 集 x_train 和 结果 数据 集 y_train 输入 模型 函数 mx_fun; 

(3) 系统 内 置 的 机 器 学 习 函 数 会 自动 分 析 特 征 数 据 与 结果 数据 之 间 的 关系 。 这 样 的 过 
程 就 是 机 器 学 习 的 过 程 ， 同 时 也 是 算法 建 模 的 过 程 ; 

(4) 通过 对 训练 数据 的 机 器 学 习 和 数据 分 析 ， 系 统 会 生成 一 个 AI 机 器 学 习 模型 ， 需 
要 将 其 保存 到 变量 mx; 

(5) 把 测试 数据 x_test 输入 模型 变量 mx，mx 会 调用 内 署 的 分 析 函 数 predict， 生 成 最 
终 分 析 结 果 y_pred。 


12.1.3 ”机 器 学 习 库 sklearn 的 安装 
在 Windows 环境 下 安装 skleam 机 器 学 习 库 需要 首先 在 Python 网 站 下 载 安 装 包 NumPy 


文件 、SciPy 文件 与 scikit-leam 文件 , 然后 进入 Python 环境 , 使 用 pip3 命令 进行 安装 。pip3 
命令 如 下 : 


pip3 install numpy-1.14.3+mkl-cp34-cp34m-win32.whl 


pip3 install scipy-1.1.0-cp34-cp34m-win32.whl 
pip3 install scikit learn-0.19.1-cp34-cp34m-win32.whl 


安装 时 ， 需 要 注意 安装 包 whl 文件 的 版 本 保持 一 致 。 
12.2 Python 机 器 学 习 算法 与 应 用 


目前 Python 已 经 是 人 工 智能 、 机 器 学 习 的 行业 标准 语言 ，sklearm 是 Python 语言 最 重 
要 的 人 工 智能 模块 库 ， 又 称 为 scikit-learn。 本 章 案例 中 涉及 的 经 典 机 器 学 习 算 法 如 下 : 

(1) 线性 回归 算法 ， 函 数 名 为 LinearRegression; 

(2) KMeans 聚 类 算法 ， 函 数 名 为 KMeans; 

(3) kNN 近邻 算法 ， 函 数 名 为 KNeighborsClassifier; 


(4) 逻辑 回归 算法 ， 函 数 名 为 LogisticRegression 。 
以 上 算法 中 的 函数 名 均 为 skleam 模块 库 内 置 的 函数 名 称 。 


12.2.1 线性 回归 算法 


回归 分 析 是 一 种 预测 性 的 建 模 技术 ， 它 研究 的 是 因 变 量 ( 目 标 )》 和 自 变量 (预测 器 ) 
之 间 的 关系 。 这 种 技术 通常 用 于 预测 分 析 、 时 间 序 列 模型 以 及 发 现 变量 之 间 的 因果 关系 。 
例如 医学 研究 中 ， 一 个 生理 指标 或 疾病 指标 往往 受到 多 种 因素 的 共同 作用 和 影响 ， 当 研究 
的 因 变 量 为 连续 变量 时 ， 通 常 引入 多 重 线性 回归 模型 ， 来 分 析 一 个 因 变 量 与 多 个 自 变量 之 
间 的 关联 性 。 

线性 回归 是 利用 数理 统计 中 的 回归 分 析 ， 来 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定 
量 关 系 的 一 种 统计 分 析 方 法 ， 运 用 十 分 广泛 。 其 表达 形式 为 y= wxte，e 为 误差 并 服从 均 
数 为 0 的 正 态 分 布 。 例 12-1 采用 的 是 线性 回归 算法 。 


线性 回归 使 用 方法 如 下 : 

from sklearn.linear model import LinearRegression 

model= LinearRegression () # 创 建 回归 模型 

model .fit (Xx, y) #X 是 自 变量 ，y 是 因 变 量 
predicted=model .predict (X_new) # 对 新 样本 进行 预测 


【 例 12-1】 已 知 10 组 平面 坐标 , 分 别 是 (1,2)、(2,5)、(3,4)、(4,5)、(5,8)、(10,13)、 
(11,10)、(12,11)、(13,15)、(15,14)， 当 在 横 坐 标 7 的 位 置 出 现 一 个 新 的 点 ， 请 预测 其 纵 
坐标 的 值 ， 预 测 点 用 萎 形 标 出 ， 如 图 12-2 所 示 。 代 码 如 下 : 


from sklearn import linear model # 导 入 回归 算法 模型 

import numpy as np 

import matplotlib.pyplot as plt 

FIRE 2 2.517 3 4 [A451 L591 0003 ILL LO, CE LE] 


[13,15], [15,14]]) # 平 面 坐标 赋 值 
# 以 下 为 回归 

X=dataset[:,0] .reshape (-1,1) # 为 自 变量 x 赋值 
y=dataset[:,1] # 为 因 变量 y 赋值 
linear=linear model1.LinearRegression() # 建 立 回归 模型 
linear.fit (xX,y) # 将 自 变量 与 因 变 量 提供 给 回归 模型 
X new=np.array ([[7]]) ## 增 加 新 的 点 

# 以 下 为 绘图 

plt.figure (facecolor="'w') # 创 建新 绘图 
plt.axis([0,16,0,16]) 

plt.scatter (X,y,color="'black') # 绘 制 所 有 点 


plt.plot (Xx, linear.predict (X) ,color='blue', linewidth=3) # 绘 制 线条 颜色 与 宽度 
plt.plot (X new, Linear-predict(X new), 'Dr',markersize=17) # 绘 制 预测 点 
plt.show() 
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图 12-2 ”线性 回归 预测 效果 


12.2.2 KMeans 聚 类 算法 


聚 类 (Cluster Analysis) 是 一 个 将 数据 集 划 分 为 若干 组 或 类 的 过 程 。 将 一 组 物理 的 或 
抽象 的 对 象 ， 根 据 它们 之 间 的 相似 程度 ， 分 为 若干 组 ， 其 中 相似 的 对 象 构成 一 组 ， 这 一 过 
程 称 为 聚 类 过 程 。 聚 类 分 析 适 用 于 很 多 不 同类 型 的 数据 集合 ， 如 工程 、 生 物 、 医 药 、 语 言 、 
人 类 学 、 心 理学 和 市 场 学 等 。 

KMeans 以 距离 值 的 平均 值 对 聚 类 成 员 进行 分 配 ， 如 果 一 个 对 象 属于 一 个 聚 类 ， 则 该 
数据 一 定 比较 靠近 聚 类 的 中 心 。 本 案例 中 , 采用 KMeans 方法 实现 对 10 组 平面 坐标 数据 进 
行 聚 类 。 


KMeans 聚 类 方法 使 用 如 下 : 

from sklearn.cluster import KMeans 

model=KMeans () # 创 建 KMeans 模型 
model.fit (Data) # 为 聚 类 模型 提供 数据 集 Data 


【 例 12-2】 现 有 10 组 平面 坐标 ， 分 别 是 (1.2)、(2.5)、(3.4)、(4.5)、(5.8)、(10.13)、 
(11,10)、(12,11)、(13,15)、(15,14)， 请 使 用 KMeans 聚 类 将 其 分 为 两 类 ， 并 绘制 聚 类 效 
果 图 ， 如 图 12-3 所 示 。 代 码 如 下 : 


from sklearn.cluster import KMeans # 导 入 KMeans 算法 模型 

import numpy as np 

import matplotlib.pyplot as plt 

dataset=np-.array([Lll2], 25 L377 tArSl Sr (tL10 L310 [L127 111r 
| 证 医 后 LD 


# 以 下 为 聚 类 

km=KMeans (n_ clusters=2) # 建 立 聚 类 模型 ， 聚 类 为 2 类 
km.fit (dataset) 坦 将 数据 集 提 供给 聚 类 模型 
井 以 下 为 绘图 


plt.figure (facecolor="'w') 


plt.axis([0,16,0,16]) 

mark=['or','ob'] # 指 定 两 种 颜色 

for i in range (dataSet -shape[0]) : 
P1t-pPlot(dqataSet[i,0],dataSet[i,1],mark[kmn.labels [il]) 

plt.show() 


图 12-3” 聚 类 效果 


12.2.3 KNN 近 拖 算 法 


例 12-2 中 提供 的 10 组 平面 坐标 已 经 分 为 两 类 ， 若 此 时 增加 一 个 新 的 坐标 点 〈6，9)， 
在 判断 其 应 归属 于 哪 一 类 时 ， 可 使 用 k 近 邻 算法 。k 近邻 算法 (k-Nearest Neighbor，kNN) 
是 最 简单 的 机 器 学 习 算法 之 一 ， 其 思路 是 : 若 一 个 样本 在 特征 空间 中 的 k 个 最 相似 〈 即 特 
征 空间 中 最 邻近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。k 近邻 
分 类 算法 使 用 方法 如 下 : 

from sklearn.neighbors import KNeighborsClassifier 


model= KNeighborsClassifier() # 创 建 k 近邻 算法 模型 
model.fit (Data, y) # 提 供 学 习 数 据 Data 与 对 应 的 标签 


完成 上 述 问 题 的 程序 代码 与 k 近邻 算法 分 类 结果 如 图 12-4 所 示 。 程 序 代 码 如 下 : 


from sklearn.neighbors import KNeighborsClassifier # 导 入 kNN 近邻 算法 模型 
from sklearn.cluster import KMeans # 导 入 KMeans 算法 模型 
import numpy as np 

import matplotlib.pyplot as plt 

dataset=np-.array([Lllir2], 1251. L374 [ArSlr lSrelr DO LS EL SEO [27 T1117 
[3 ESaL41] 


# 以 下 为 KMeans 聚 类 与 kNN 分 类 

km=KMeans (n_clusters=2) #KMeans 聚 类 分 2 类 

km.fit (dataset) # 将 数据 集 提供 给 聚 类 模型 

labels=km.1labels # 使 用 KMeans 聚 类 结果 进行 分 类 第 
knn=KNeighborsClassifier () ## 建 立 kNN 近邻 算法 模型 恰 
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knn.fit (dataset, labels) # 学 习 分 类 结果 

data new=np.array([[6,9]]) 

label new=knn.predict (data new) # 对 点 〈6, 9) 进行 分 类 
# 以 下 为 绘图 


plt.figure (facecolor="'w') 
BIlt.axis([0,. 16,0,16]) 
mark=["'or"','ob"] 
for i in range (dataSet.shape[0]) : 
plt.plot (dataSet [i,0],dataset[i,1],mark[labels[i]]) 
plt.plot (data new[0,0],data new[0,1],mark[label new[0]] /markersize=17) 


# 画 新 的 点 
plt.show() 
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图 12-4 上 近邻 算法 分 类 结果 


12.2.4 远 辑 回 娄 算法 


逻辑 回归 常用 于 数据 挖掘 、 疾 病 自 动 诊 断 、 经 济 预测 等 领域 。 例 如 通过 逻辑 回归 分 析 ， 
可 以 了 解 引发 胃癌 的 危险 因素 或 根据 危险 因素 预测 一 个 人 患 癌症 的 可 能 性 等 。 风 辑 回 归 是 
在 线性 回归 的 基础 上 ， 增 加 一 个 转化 函数 Sigmoid， 将 预测 值 映射 到 [0，1] 上 ， 以 0.5 为 分 
界线 ， 从 而 达到 分 类 的 目的 ，Sigmoid 函数 定义 如 下 : 


1 
上 (中 三 
(0 1+e 


逻辑 回归 也 被 称 为 广义 线性 回归 模型 ， 它 与 线性 回归 模型 的 形式 基本 上 相同 ， 都 具有 
ax+b， 其 中 a 和 尹 是 待 求 参 数 ， 线 性 回归 直接 将 ax+5 作为 因 变 量 ， 即 y=ax+b， 而 侈 
辑 回 归 则 通过 函数 Sigmoid 将 ax+b5 对 应 为 P=s(ax+b)， 将 上 述 函 数 中 的 + 换 成 ax+b， 
可 以 得 到 逻辑 回归 模型 的 参数 形式 如 下 : 
1 


Pl 0,b) = ey 


Sigmoid 函数 如 图 12-5 所 示 。 


图 12-5 Sigmoid 函数 图 像 


通过 函数 Sigmoid 可 将 输出 值 限制 在 区 间 [0，1] 上 。 若 有 测试 点 x， 用 Sigmoid 函数 计 
算出 的 结果 yy 就 可 以 作为 测试 点 x 属于 类 别 1 的 概率 大 小 。 设 定 阔 值 , 通常 是 0.5。 当 y>0.5 
时 ， 就 将 x 归 到 类 别 1， 如 果 y<0.5， 就 将 x 归 到 类 别 0。 阔 值 可 以 调整 ， 比 如 将 阐 值 设 为 
0.9， 就 是 说 有 超过 90% 的 把 握 ，x 才 属 于 类 别 1。 

sklearm 机 器 学 习 包 中 集成 了 交尾 花卉 (Iris) 数据 集 , 该 数据 集 一 共 包含 4 个 特征 变量 ， 
1 个 类 别 变量 ， 共 有 150 个 样本 。4 个 特征 属性 包括 葛 片 和 花瓣 的 长 与 宽 ，! 个 类 别 属性 包 
括 营 尾 花 的 三 个 亚 属 ， 分 别 是 山 帝 尾 〈Iris-setosa)、 变 色 营 尾 〈Iris-versicolor) 和 维 吉 尼 亚 
营 尾 (Iris-virginica ) 。 


下 面 采 用 逻辑 回归 对 其 类 别 属 性 进行 分 类 ， 分 类 结果 如 图 12-6 所 示 ， 代 码 如 下 。 


import matplotlib.pyplot as plt 

import numpy as np 

from sklearn.datasets import load iris # 导 入 药 尾 花 数据 集 
from sklearn.linear model import LogisticRegression # 导 入 逻辑 回归 模型 
# 载 入 数据 集 


iris = load iris() 


X = datals <2] # 获 取 人 花卉 两 列 数据 集 
Y = iris.target 

# 风 辑 回 归 模 型 

lr = LogisticRegression (C=le5) 

EE 

#meshgrid 函数 生成 两 个 网 格 和 矩阵 

h= .02 

x mine x Max = XL Omin(y — a5 Kh Ol maxl) 5 


y min, y max = xX[:, 1] .min() - .5, X[:, 1] .max() + .5 

xx, yy = np.meshgrid (np.arange (x min, x max, h), np.arangely min, y max, h)) 
#pcolormesh 函数 将 xx, yy 两 个 网 格 矩 阵 和 对 应 的 预测 结果 z 绘制 在 图 片上 

Zz = lr.predict (np.c [xx.ravel(), yy.ravel()]) 

2 = 2.reshape (xx.shape) 

plt.figure(1，figsize=(8,6)) 


plt.pcolormesh (xx, yy, 2, cmap=plt.cm.Paired) 第 
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plt.rcParams['font.sans-serif'] = ["KaiTi'] 
plt.rcParams['axes.unicode minus'] = False 
# 绘 制 散 点 图 


plt.scatter (X[:50,0], X[:50,1], color="'red',marker="'o0', label="'setosa') 
plt.scatter (X[50:100,0], X[50:100,1], color='blue'， marker='x', label= 
'versicolor') 


plt.scatter (X[100:,0], X[100:,1], color='green', marker='s', label="'Virginica') 
plt .xlabel (' 花 况 长 度 ') 

plt .ylabel (' 花 莹 宽度 ' ) 

plt.xlim(xx.min(), xx.max()) 

plt.ylim(yy.min(), yy.max()) 

plt.xtLicks(d (0) 

plt.yticks(()) 

pit.legend (loc=2) 

plt.show() 
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花草 长 度 
图 12-6 ”逻辑 回归 分 类 效果 


本 章 小 结 


本 章 主 要 介绍 了 Python 的 开源 机 器 学 习 模块 scikit-learn 的 使 用 方法 ， 该 模块 (简称 
skleam ) 能 够 为 用 户 提供 如 分 类 、 回 归 、 聚 类 等 各 种 机 器 学 习 算法 接口 。 通 过 对 本 章 的 学 
习 , 读者 能 够 对 Python 机 器 学 习 有 关内 容 有 一 定 的 了 解 和 掌握 ,为 后 续 的 深入 学 习 打下 良 
好 的 理论 基础 。 


第 13 章 Python 解析 XML 


导 学 

XML 指 可 扩展 标记 语言 (eXtensible Markup Language )， 是 标准 通用 标记 语言 的 子 
集 。XML 是 各 种 应 用 程序 之 间 进 行 数据 传输 的 最 常用 的 工具 ， 并 且 在 信息 存储 和 描述 领 
域 变 得 越 来 越 流行 。Python 是 一 种 面向 对 象 的 解释 型 程序 设计 语言 。 在 使 用 XML 文件 中 
的 数据 时 需要 对 文件 中 的 数据 进行 解析 。 本 章 通过 具体 实例 介绍 Python 语言 解析 XML 的 

了 解 : XML 的 概念 ，Python 解析 XML 的 常用 方法 的 优 缺点 。 

掌握 : SAX 解析 XML 方法 与 DOM 解析 XML 方法 。 

XML 是 一 种 数据 描述 语言 。 尽 管 它 是 语言 ， 但 通常 情况 下 ，XML 并 不 具备 常见 语 
言 的 基本 功能 一 一 即 被 计算 机 识别 并 运行 。 只 有 依靠 男 一 种 语言 对 其 进行 解释 ， 才 能 使 
其 在 计算 机 上 运行 。Python 的 标准 库 中 提供 了 2 个 处 理 XML 的 模块 ， 可 以 对 XML 进行 
解析 。 


13.1 XML 概述 


13.1.1 XML 简介 


XML 是 一 种 简单 的 数据 存储 语言 , 已 经 日 趋 成 为 当前 许多 新 生 技 术 的 核心 , 在 信息 存 
储 和 描述 领域 变 得 越 来 越 流行 。 它 是 Web 发 展 到 一 定 阶段 的 必然 产物 ， 既 有 HTML ( 超 文 
本 标记 语言 ) 的 简单 特性 ， 又 有 明确 和 结构 良好 等 许多 新 的 特性 。XML 使 用 一 系列 简单 的 
标记 描述 数据 ， 这 些 标记 可 以 用 方便 的 方式 建立 ， 极 其 简单 易于 掌握 和 使 用 。 下 面 以 
patients xml 文档 为 例 ， 进 行 介绍 。 


<?xml version="1.0" encoding="utf-8"?> <!-- 文 件 序言 --> 


<patients> <!-- 根 元 素 --> 

<patient patino="20180101"> <!-- 元 素 patient 以 及 元 素 属 性 --> 
<name> 刘 静 </name> <!-- 元 素 name--> 
<sex> 女 </sex> <!-- 元 素 sex--> 
<dept> 内 科 </dept> <!-- 元 素 dept --> 

</patient> <!-- 元 素 结束 标签 -~-> 

<patient patino="20180102"> <!- -元素 patient 以 及 元 素 属性 --> 


<name> 王 小 雨 </name> <!-- 元 素 name--> 
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<sex> 男 </sex> y= ex 

<dept> 外 科 </dept> <!-- 元 素 dept--> 
</patient> <!- -元 素 结束 标签 --> 
</patients> <!-- 元 素 结束 标签 --> 


文档 的 第 一 行 是 序言 。version 指明 了 文档 符合 XML 1.0 规范 。encoding 是 文档 字符 编 
码 ， 如 “UTF-8” 或 者 “GB2312”。 

文档 的 主体 部 分 从 <patients> 开 始 ， 到 </patients> 结 束 。<patients> 称 为 根 元 素 ， 它 包括 
文档 中 其 他 所 有 元 素 。 根 元 素 的 起 始 标签 <patients> 要 放 在 所 有 其 他 元 素 的 起 始 标签 之 前 ， 
根 元 素 的 结束 标签 </patients> 要 放 在 所 有 其 他 元 素 的 结束 标签 之 后 。 <patient> 是 直属 于 根 元 
素 下 的 子 元 素 。 在 <patient> 下 又 有 < name >、< sex >、< dept > 这 些 子 元 素 。patino 是 <patient> 
元 素 的 一 个 属性 ,“20180101” 是 属性 值 。 
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1. SAX 解析 XML 

SAX (Simple API for XML) 是 一 种 以 事件 驱动 的 XML 编程 接口 ， 是 XML 解析 的 一 
种 新 的 替代 方法 。 解 析 XML 常用 的 还 有 DOM 解析 ，SAX 与 DOM 不 同 的 是 它 边 扫描 边 
解析 ， 自 顶 向 下 依次 解析 。SAX 解析 XML 具有 速度 快 、 占 用 内 存 少 的 优点 ， 对 于 Android 
等 CPU 资源 宝贵 的 移动 平台 来 说 是 一 个 巨大 的 优势 。 

(1) SAX 的 优点 

@D 解 析 速 度 快 。 

@ 占 用 内 存 少 。 

(2) SAX 的 缺点 

Q@ 仅仅 知道 当前 解析 的 元 素 的 名 字 和 属性 ， 却 无 法 知道 当前 解析 元 素 的 上 层 元 素 及 

@ 只 能 读 取 XML， 无 法 修改 XML。 

@@ 无 法 随机 访问 某 个 元 素 。 

2. DOM 解析 XML 

DOM 全 称 Document Object Model， 是 把 整个 XML 文档 当成 一 个 对 象 来 处 理 ， 会 先 
把 整个 文档 读 入 到 内 存 里 ， 构 造 DOM 树 ， 然 后 才 开始 工作 。 

(1) DOM 的 优点 

@ 能 保证 XML 文档 正确 的 语法 和 格式 。 

@ 树 在 内 存 中 是 持久 的 ， 因 此 可 以 对 XML 文档 进行 修改 。 

@ 可 实现 对 XML 文档 的 随机 访问 。 

@ 整个 文档 树 都 在 内 存 当 中 ， 便 于 操作 。 

(2) DOM 的 缺点 

@ 整个 文档 必须 一 次 性 解析 完 。 

@ 由 于 整个 文档 都 需要 载 入 内 存 ， 对 于 大 的 文档 解析 和 加 载 很 耗资 源 。 


13.2 ”了 Python 使 用 SAX 解析 XML 


13.2.1 使 用 SAX 解析 XML 文件 的 方法 


SAX 采用 事件 驱动 模式 , 利用 SAX 解析 XML 文档 牵涉 到 两 个 部 分 : 解析 器 和 事件 处 
理 器 。 解 析 器 负责 读 取 XML 文档 ， 并 向 事件 处 理 器 发 送 事 件 ， 如 元 素 开始 和 元 素 结束 事 
件 。 而 事件 处 理 器 则 负责 对 事件 做 出 相应 的 处 理 。 在 Python 中 使 用 SAX 方式 处 理 XML 
要 先 引 入 xml.sax.handler 中 的 ContentHandler 类 和 xml.sax 中 的 parse() 函 数 。 

1. ContentHandler 类 方法 介绍 

(1) characters(content) 方 法 

遇 到 字符 数据 时 调用 。 

(2) startElement(name, attrs) 方 法 

遇 到 元 素 的 起 始 标签 时 调用 ，name 是 标签 的 名 字 ，attrs 是 元 素 的 属性 值 。 

(3) endElement(name) 方 法 

过 到 元 素 的 结束 标签 时 调用 。 

2. 创建 一 个 SAX 解析 器 并 解析 XML 文档 


xml.sax.parse( xmlfile, contenthandler()) 


13.2.2 使 用 SAX 读 取 XML 文件 的 实例 
【 例 13-1】 使 用 SAX 解析 patients.xml 文件 的 程序 如 下 。 


from xml.sax.handler import ContentHandler 
from xml.sax import parse 
# 创 建 一 个 自己 的 handler 类 ， 继承 xml.sax 的 ContentHandler 类 
class patientHandler (ContentHandler) : 
def nb (oaneys 
self.currentData = 
self.name 一 人 
SEE 于 
self.dept = "" 
# 遇 到 元 素 开 始 标签 时 调用 ，tag 是 标签 的 名 字 ，attributes 是 元 素 的 属性 值 
def startElement (self, tag, attributes): 
self.CurrentData = tag 
if tag == "patient": 


print ("patient") 志 打 印 patient 标签 
patino = attributes["patino"] 
print ("patino:", patino) # 打 印 patino 属性 
# 内 容 事件 处 理 ， 遇 到 字符 数据 时 调用 ，content 为 元 素 中 的 字符 内 容 
def characters (self, content): 第 
if self.CurrentData == "name" : 13 
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self.name = content # 获 取 name 元 素 中 的 内 容 
elif self.CurrentData == "sex": 

self.sex = content # 获 取 sex 元 素 中 的 内 容 
elif self.CurrentData == "dept": 

self.dept = content ## 获 取 dept 元 素 中 的 内 容 


# 遇 到 元 素 的 结束 标签 时 调用 ，tag 是 标签 的 名 字 
def endElement (self, tag): 
if self.CurrentData == "name": 
print ("name:", self.name) 井 打 印 name 以 及 元 素 中 的 内 容 
elif self.CurrentData == "sex": 
print ("sex:", self.sex) 井 打 印 sex 以 及 元 素 中 的 内 容 
elif self.CurrentData == "dept": 
print ("dept:", self.dept) # 打 印 dept 以 及 元 素 中 的 内 容 
seolf"currentData E 
# 解 析 XML 文件 
parse("e:\\test\\patients2.xml",patientHandler ()) 


旦 序 的 运行 结果 如 下 : 


patient 

patino: 20180101 
name: 刘 静 

sex: 女 

dept: 内 科 
patient 

patino: 20180102 
name: 王 小 雨 

sex: 男 


dept: 外 科 
13.3 Python 使 用 DOM 解析 XML 


文件 对 象 模型 (Document Object Model，DOM) 是 W3C 组 织 推荐 的 处 理 可 扩展 标志 
语言 的 标准 编程 接口 。 一 个 DOM 的 解析 器 在 解析 一 个 XML 文档 时 ， 一 次 性 读 取 整 个 
文档 ， 把 文档 中 所 有 元 素 保存 在 内 存 中 的 一 个 树 结构 里 ， 之 后 可 以 利用 DOM 提供 的 不 同 
的 函数 来 读 取 或 修改 文档 的 内 容 和 结构 ， 也 可 以 把 修改 过 的 内 容 写 入 XML 文件 。 


13.3.1 使 用 DOM 读 取 XML 文件 
1. 得 到 DOM 对 象 
dom = xml.dom.minidom.parse (xmlfile) 


导入 xml.dom.minidom 模块 ， 生 成 dom 对 象 。 


2. 获取 根 结 点 


root = dom.documentElement 


得 到 文档 的 根 对 象 。 
3.， 访问 子 结 点 


node= root.getElementsByTagName (nodeName) 


可 以 通过 getElementsByTagName() 方 法 和 childNodes 属性 找到 要 处 理 的 元 素 。 
getElementsByTagName() 可 以 搜索 当前 元 素 的 所 有 子 元 素 ， 包 括 有 层次 的 子 元 素 。 

4. 结 点 属性 

每 个 结 点 都 有 nodeName、nodeValue、nodeType 属性 , nodeName 是 结 点 名 , nodeValue 
是 结 点 值 ，nodeType 是 结 点 类 型 。 

$5. 遍历 childNodes， 打 印 所 有 元 素 的 标签 名 


For node in root.childNodes: 
If node.nodeType == node. ELEMENT NODE: 
print (node.nodeName) 


childNodes 只 保存 了 当前 元 素 的 第 一 层 子 结 点 。 因 此 可 以 用 循环 的 方式 遍历 
childNodes， 进 而 访问 每 一 个 结 点 ， 并 通过 nodeType 判断 它 的 结 点 类 型 。 
6. 打印 文本 结 点 


for nodel in node.childNodes: 
if nodel.nodeType == nodel.TEXT NODE: 
print (nodel .data) 


对 于 文本 结 点 ， 获 取 其 本 内 容 可 以 使 用 .data 属性 。 
7. 实例 
【 例 13-2】 使 用 DOM 读 取 patients.xml 的 程序 如 下 : 


from xml.dom import minidom 

def patiInfo() : 
info=minidom.parse("e:\\test\\patients.xml") # 得 到 DOM 对 象 
root=info.documentElement # 获 取 根 元 素 < patients> 
patient=root.getElementsByTagName ("patient") # 获 取 子 元 素 
for p in patient: 


print (p.nodeName) # 输 出 元 素 名 
for item in p.childNodes: # 输 出 子 元 素 
if item.nodeType == info.ELEMENT NODE: 
print (item.nodeName,end=":") 
for node in item.childNodes: # 访 问 子 元 素 
if node.nodeType == info.TEXT NODE: 

print (node .data) # 输 出 文本 结 点 第 
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程序 运行 的 结果 如 下 : 
patient 

name : 刘 静 

sex: 女 

patient 

name : 王 小 雨 


Sex: 男 


dept: 外 科 


13.3.2 使 用 DOM 添加 结 点 
1. 元 素 结 点 的 生成 
node= info.createElement (nodeName) 


2. 元素 结 点 的 添加 
node .appendchild(childNode) 


生成 的 元 素 结 点 是 一 个 空 元 素 , 需要 使 用 appendChild0 或 insertBefor0 方 法 添加 文本 或 
者 其 他 元 素 。 
3. 文本 结 点 的 生成 


node = info.createTextNode (nodeValue) 
4. 为 元 素 添加 属性 
node.setAttribute (attributeName,attributeValue) 


5. 使 用 DOM 添加 新 结 点 的 步骤 

(1) 从 XML 文档 中 得 到 DOM 对 象 。 

(2) 在 原始 文档 中 定位 新 结 点 的 父 结 点 。 

(3) 创建 新 结 点 。 

(4) 把 新 结 点 添加 到 父 结 点 中 。 

6. 实例 

【 例 13-3】 使 用 DOM 为 patients.xml 添加 patient 元 素 ， 其 中 patient 属性 为 patino= 
“20180103”，name 子 元 素 为 “ 李 铁 钢 ”，sex 子 元 素 为 “ 男 ”，dept 子 元 素 为 “内 科 ”。 其 程 
序 如 下 : 


from xml.dom import minidom 

def addPatiInfo(): 
info = minidom.parse ("e:\\test\\patients.xml") 塌 得 到 DOM 对 象 
root = info.documentElement # 获 取 根 元 素 <patients> 
patient = info.createElement ("patient") # 创 建 <patient> 结 点 


patient.setAttribute ("patino","20180103") # 为 <patient> 添 加 属性 


name = info.createElement ("name") # 创 建 <name> 结 点 
text = info.createTextNode (" 李 铁 钢 ") # 生 成 文本 结 点 

# 将 文本 结 点 添加 到 <name> 结 点 中 

name.appendchild (text) 

sex = info.createElement ("sex") # 创 建 <sex> 结 点 
text = info.createTextNode (" 男 ") # 生 成 文本 结 点 

# 将 文本 结 点 添加 到 <sex> 结 点 中 

sex.appendChild (text) 

dept = info.createElement ("dept") # 创 建 <dept> 结 点 
text = info.createTextNode ("内 科 ") # 生 成 文本 结 点 

# 将 文本 结 点 添加 到 <dept> 结 点 中 


dept .appendchild (text) 

# 将 <name> 结 点 添加 到 <patient> 结 点 中 

patient.appendChild (name) 

# 将 <sex> 结 点 添加 到 <patient> 结 点 中 

patient.appendChild (sex) 

# 将 <dept> 结 点 添加 到 <patient> 结 点 中 

patient.appendChild (dept) 

# 将 <patient> 结 点 添加 到 <patients> 结 点 中 

root.appendchild (patient) 

print (root.toxml ()) 使 用 toxml () 实现 xml 输出 
addPatiInfo() 


旦 序 的 运行 结果 如 下 : 


<patients> 

<patient patino="20180101"> 
<name> 刘 静 </name> 
<sex> 女 </sex> 
<dept> 内 科 </dept> 

</patient> 

<patient patino="20180102"> 
<name> 主 小 十 </name> 
<sex> 男 </sex> 
<dept> 外 科 </dept> 

</patient> 

<patient patino="20180103"><name> 李 铁 钢 </name><sex> 男 </sex><dept> 内 科 

</dept></patient></patients> 


13.3.3 使 用 DOM 修改 、 删 除 结 点 
1. 元 素 结 点 的 删除 
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从 node 中 删除 子 元 素 ChildNode。 
2. 元 素 结 点 的 替换 


node.replaceChild (newNode, oldNode) 


将 oldNode 结 点 替换 成 newNode 结 点 。 

3. 使 用 DOM 修改 或 删除 结 点 的 步骤 

(1) 从 XML 文档 中 得 到 DOM 对 象 。 

(2) 在 原始 文档 中 定位 要 操作 的 结 点 以 及 它 的 父 结 点 。 


(3) 通过 调用 < 父 结 点 >IeplaceChild( 方 法 替换 结 点 来 修改 结 点 的 值 ， 也 可 以 通过 调用 


< 结 点 >.setAttribute() 方 法 来 修改 属性 的 值 。 
(4) 通过 < 父 结 点 >.removeChild() 方 法 来 删除 结 点 。 
4. 实例 


【 例 13-4】 对 patients.xml 文件 做 修改 ， 将 王 小 雨 改 成 王 大 雨 并 删除 第 1 个 <patient> 


元 素 。 程 序 如 下 : 


from xml.dom import minidom 

def modiPatiInfo() : 
info = minidom.parse("e:\\test\\patients.xml") 
root = info.documentElement 
item=info.getElementsByTagName ("patient") 
pati=item[1] 
oldnode=pati .getElementsByTagName ('name') [0] 
newnode=info .createElement ("name") 
text=info .createTextNode (" 主 大 雨 ") 
# 将 文本 结 点 添加 到 新 创建 的 <name> 结 点 中 
newnode.appendChild (text) 
pati.replaceChild (newnode, oldnode) 
root.removeChild(item[0]) 
print (root.toxm]l ()) 

modiPatiInfo() 


程序 的 运行 结果 如 下 : 
<patients> 


<patient patino="20180102"> 
<name> 主 大 雨 </name> 
<sex> 男 </sex> 
<dept> 外 科 </dept> 

</patient> 

</patients> 


# 得 到 DOM 对 象 

# 获 取 根 元 素 <patients> 
# 获 取 所 有 <patient> 结 点 
# 取 第 二 个 <patient> 结 点 
# 取 <name> 结 点 

# 创 建新 <name> 结 点 

间 创 建文 本 结 点 


用 新 结 点 替换 旧 结 点 
# 删 除 第 一 个 <patient> 结 点 
并 使 用 toxml () 实现 xml 输出 


本 章 小 结 
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本 章 主 要 介绍 了 XML 的 概念 、Python 解析 XML 文件 的 两 种 方式 ， 并 通过 实例 详细 


介绍 了 Python 使 用 SAX 解析 XML 以 及 了 Python 使 有 


DOM 解析 XML 的 方法 .通过 对 本 章 


的 学 习 ， 读 者 能 够 掌握 Python 对 XML 文件 的 解析 方法 ， 并 可 以 对 XML 文件 的 结 点 进行 


修改 和 删除 。 
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